¿Por qué usar O3-Pro?
A diferencia de los modelos de propósito general como GPT-4O que priorizan la velocidad, el conocimiento amplio y hacer que los usuarios se sientan bien consigo mismos, O3-Pro utiliza un proceso de razonamiento simulado de la cadena de pensamiento para dedicar más tokens de salida hacia el trabajo a través de problemas complejos, lo que generalmente es mejor para desafíos técnicos que requieren un análisis más profundo. Pero todavía no es perfecto.

Una tabla de referencia O3-Pro Operai.
Crédito: OpenAI
Medir la llamada capacidad de “razonamiento” es complicada ya que los puntos de referencia pueden ser fáciles de jugar mediante la recolección de cerezas o la contaminación de datos de entrenamiento, pero OpenAI informa que O3-Pro es popular entre los evaluadores, al menos. “En evaluaciones de expertos, los revisores prefieren consistentemente O3-Pro sobre O3 en cada categoría probada y especialmente en dominios clave como la ciencia, la educación, la programación, los negocios y la escritura de ayuda”, escribe OpenAI en sus señales de comunicación. “Los revisores también calificaron O3-Pro consistentemente más alto para mayor claridad, integridad, seguimiento de instrucciones y precisión”.

Una tabla de referencia O3-Pro Operai.
Crédito: OpenAI
Operai compartió resultados de referencia que muestran las mejoras de rendimiento reportadas de O3-Pro. En la competencia de matemáticas AIME 2024, O3-Pro logró una precisión del 93 por ciento de pase@1, en comparación con el 90 por ciento para O3 (medio) y 86 por ciento para O1-Pro. El modelo alcanzó el 84 por ciento en las preguntas de ciencias a nivel de doctorado del diamante GPQA, en comparación con el 81 por ciento para O3 (medio) y 79 por ciento para O1-Pro. Para las tareas de programación medidas por CodeForces, O3-Pro alcanzó una calificación ELO de 2748, superando a O3 (medio) a 2517 y O1-Pro en 1707.
Cuando se simula el razonamiento

Crédito: Floriana a través de Getty Images
Es fácil que los laicos sean expulsados por las afirmaciones antropomórficas de “razonamiento” en los modelos de IA. En este caso, al igual que con el término antropomórfico prestado “alucinaciones”, el “razonamiento” se ha convertido en un término de arte en la industria de la IA que básicamente significa “dedicar más tiempo de cálculo a resolver un problema”. No significa necesariamente que los modelos AI apliquen sistemáticamente la lógica o posean la capacidad de construir soluciones a problemas realmente novedosos. Esta es la razón por la cual ARS Technica continúa utilizando el término “razonamiento simulado” (SR) para describir estos modelos. Están simulando un proceso de razonamiento de estilo humano que no necesariamente produce los mismos resultados que el razonamiento humano cuando se enfrentan a desafíos novedosos.