Joder... Este artículo explica discretamente por qué la mayoría de los modelos de "razonamiento" se desmontan en el momento en que los desconectas de benchmarks limpios y los lanzas al mundo real. El equipo de LongCat aborda una pregunta que el campo sigue esquivando: si los modelos actuales son tan buenos razonando, ¿por qué siguen fallando en el comportamiento básico de los agentes una vez que las herramientas fallan, las instrucciones se vuelven difusas o los entornos se defienden? Su respuesta es incómoda. El razonamiento no falla porque las cadenas de pensamiento sean demasiado cortas. Fracasa porque entrenamos el pensamiento sin consecuencias. El artículo presenta LongCat-Flash-Thinking-2601, un modelo de Mezcla de Expertos con 560B parámetros construido en torno a una idea simple pero radical: el razonamiento solo se vuelve fiable cuando se ve obligado a actuar, observar fallos y adaptarse dentro de entornos reales. En lugar de tratar el razonamiento como generación de texto, lo enmarcan como un bucle: Observa → planifica → actúa → recibe feedback → revisa. Ese cambio se propaga por todas partes. Los datos ya no son indicaciones estáticas. El entrenamiento no son trayectorias limpias. La evaluación no son respuestas de un solo golpe. Una de las contribuciones más importantes es la escalada ambiental. Los autores generan automáticamente 10.000+ entornos ejecutables en 20+ dominios, cada uno basado en herramientas reales, bases de datos reales y múltiples rutas válidas de solución. La dificultad aumenta estructuralmente, no con trucos ingeniosos de prompt. Lo más importante es que no desinfectan el mundo. Se inyectan deliberadamente fallos de herramientas, instrucciones ambiguas, salidas parciales y retroalimentación ruidosa. El ruido no es un error. Es el currículo. Para mantener el entrenamiento estable a esta escala, extienden el RL asíncrono (DORA) para manejar interacciones de largo horizonte y múltiples vueltas con decenas de miles de entornos concurrentes sin colapsar. En el momento de la inferencia, introducen el Modo de Pensamiento Pesado. En lugar de una larga cadena de pensamiento, el modelo recorre caminos de razonamiento paralelos y luego se refleja a través de ellos antes de actuar. Esto supera consistentemente a la autocoherencia en tareas complejas y agentiales. Los resultados hablan con fuerza. Rendimiento de última generación en BrowseComp, τ²-Bench y VitaBench. Matemáticas, programación y resultados de búsqueda sólidos. Y, lo más importante, mucha menos degradación en condiciones ruidosas. La verdadera conclusión es más clara que cualquier número de referencia: La calidad del razonamiento ya no es el cuello de botella. La generalización lo es. Y la generalización no viene de mejores indicaciones ni de pensamientos más largos. Viene de entornos que se resisten....