Ante la fuerte competencia de gigantes como Google, Sam Altman lanzó hace apenas unas semanas un llamado para que todos colaboraran y aceleraran el desarrollo de un nuevo modelo. Hoy ya está disponible: GPT-5.2 salió al público, y quienes tienen curiosidad empezaron a probar sus capacidades para conocer qué avances trae en el diseño de modelos de lenguaje y qué pueden hacer por nosotros.
“Es mejor para crear hojas de cálculo, crear presentaciones, escribir código, percibir imágenes, comprender contextos largos, usar herramientas y gestionar proyectos complejos de varios pasos“, explicó un vocero de OpenAI en el anuncio oficial del modelo, que se presentó ayer. En ese comunicado se destacó el rendimiento de GPT-5.2 en las métricas de SWE-Bench y en las pruebas ARC.

El anuncio también incluyó una mención llamativa de marcas. OpenAI señaló que Notion, Box, Shopify, Harvey y Zoom comprobaron que GPT-5.2 se destaca en razonamiento de largo plazo y en el uso de herramientas de última generación. Además, Databricks, Hex y Triple Whale valoraron su desempeño en tareas de análisis de documentos y ciencia de datos agentic. Por su parte, Cognition, Warp, Charlie Labs, JetBrains y Augment Code observaron que el modelo ofrece un rendimiento sobresaliente en codificación agentic.
Experiencia económica
Desde OpenAI explicaron que crearon GPT-5.2 para asistir en “tareas profesionales comunes” y para “desbloquear aún más valor económico” para los usuarios. El modelo puede aplicarse en tareas como elaboración de tablas de capitalización y planificación de la fuerza laboral. Según un revisor, se destaca por ofrecer “abstracción más fuerte, equilibrio más claro y realista y respuestas estratégicas y… conocimientos conceptuales más profundos y ‘vibra'”.
Según esa evaluación, GPT-5.2 resulta especialmente eficaz en tareas que exigen un alto nivel de análisis o razonamiento matemático. En cuanto al tiempo que permite ahorrar, una encuesta empresarial realizada por OpenAI reveló que los modelos anteriores ayudaban a profesionales a ganar entre 40 y 60 minutos por día, y estiman que GPT-5.2 superará esa marca.
Más allá de las pruebas SWE y ARC, existen otras formas concretas de medir la evolución de estos modelos. A principios de este año, OpenAI introdujo el concepto de GDPVal, una herramienta que toma como base la noción de Producto Interno Bruto (PIB) para explicar el impacto que tienen los modelos de lenguaje en las empresas.
“Evaluaciones previas de IA, como pruebas académicas exigentes y desafíos de codificación competitiva, fueron claves para empujar los límites del razonamiento de los modelos, pero muchas veces no alcanzan a reflejar las tareas que muchas personas realizan en su trabajo diario”, escribieron los voceros.
“Para cerrar esa brecha, venimos desarrollando evaluaciones que miden capacidades cada vez más realistas y relevantes desde lo económico”, agregaron. El comentario parece hecho a medida para GPT-5.2 y refleja exactamente lo que varios especialistas vienen destacando sobre el potencial del nuevo modelo.
GPT 5.2
Su aplicación, además, tiene un alcance amplio. GDPVal abarca 44 ocupaciones dentro de las 9 principales industrias que más aportan al PIB de Estados Unidos —¿enfermeras profesionales? ¿Científicos de datos?—, junto con 1.320 tareas especializadas.
GDPVal se destaca tanto por el realismo como por la variedad de tareas que evalúa. A diferencia de otras evaluaciones vinculadas al valor económico, que suelen centrarse en áreas específicas —como SWE-Lancer—, GDPVal abarca una amplia gama de ocupaciones y tareas.
Y, a diferencia de los benchmarks que se basan en la creación sintética de consignas al estilo de un examen académico —como Humanity’s Last Exam o MMLU—, esta evaluación se enfoca en entregables concretos: trabajos reales o productos similares a los que se generan en contextos laborales.
La mención al Último Examen de la Humanidad es oportuna, por un lado, porque escribí sobre esa herramienta de análisis la semana pasada. Por otro, porque ante el ritmo de avance de la inteligencia artificial, no suena descabellado pensar que el HLE termine siendo, efectivamente, el último “examen” en el que la experiencia humana marque la diferencia.
Llegando al punto
Otra mejora que varios usuarios destacan en GPT-5.2 tiene que ver con el aprendizaje automático clásico. En ese terreno, los ingenieros suelen analizar la capacidad de un programa para “converger”, es decir, para unir información de forma específica. Existen muchas formas de abordar ese análisis: desde observar cómo un organismo biológico procesa datos visuales hasta estudiar cómo los cambios dimensionales afectan los resultados de atención en una red neuronal.
Algunos de los primeros usuarios aseguran que esta nueva versión logra mejores resultados a la hora de converger, cohesionar y entregar respuestas más coherentes. Vale decirlo: hay personas que también hacen esto mejor que otras.
En medio de una conversación sobre GPT-5.2, un usuario mencionó la frase “concisión de pensamiento”, y me sorprendió porque no estaba seguro de que “concisión” fuera realmente una palabra... hasta que la busqué. Más allá del nombre que se le ponga, los entusiastas de esta versión esperan que el modelo pueda mantener esa capacidad de forma constante.

