OpenAI revela el rendimiento real de la IA: 44 profesiones bajo evaluación global

Un nuevo informe de OpenAI midió por primera vez el rendimiento real de la IA en tareas laborales que aportan valor económico directo. El estudio analizó cómo los modelos más avanzados se desempeñan en 44 profesiones de alto impacto, que abarcan desde ingeniería y derecho hasta periodismo, salud y diseño.

El resultado sorprendió incluso a los investigadores: los sistemas de inteligencia artificial más potentes ya igualan o superan a los profesionales humanos en casi la mitad de los casos. El hallazgo no se basó en exámenes teóricos, sino en la comparación directa entre entregas reales producidas por expertos y las generadas por modelos como GPT-5, Claude Opus 4.1, Gemini 2.5 Pro y Grok 4.

OpenAI desarrolló este benchmark con un objetivo claro: medir la utilidad de la inteligencia artificial en actividades de relevancia económica. En lugar de pruebas abstractas, se incluyeron proyectos profesionales reales: informes, presentaciones, hojas de cálculo, diseños, diagnósticos y planes estratégicos.

Qué revela el nuevo mapa del trabajo digital

El estudio GDPval cubre los nueve sectores que más contribuyen al PIB de Estados Unidos, con más de 1.300 tareas evaluadas. Cada encargo fue creado por profesionales con un promedio de 14 años de experiencia, y revisado en cinco etapas por expertos del mismo campo para asegurar realismo y calidad.

Los resultados marcan un punto de inflexión. El rendimiento real de la IA ya se aproxima a los estándares humanos en sectores clave. En la comparación ciega realizada por especialistas, Claude Opus 4.1 fue el modelo mejor calificado, destacando en diseño y formato visual, mientras que GPT-5 obtuvo las mejores notas en precisión y cumplimiento de instrucciones. En conjunto, sus entregas igualaron o superaron las de humanos en el 47,6 % de los casos.

El estudio midió asimismo, parámetros vinculados a tiempo y costo. En escenarios donde los expertos utilizaron los modelos como asistentes —revisando y corrigiendo sus salidas—, se observaron reducciones de hasta 40% en tiempo y 60% en costos, sin pérdida de calidad. Esa fórmula, conocida como “try-and-fix”, combina eficiencia algorítmica con criterio humano, y se perfila como la vía más realista hacia una productividad sostenible.

El informe también expone los puntos débiles de esta nueva frontera. Las IAs aún fallan cuando las instrucciones son ambiguas o el contexto es incompleto. En pruebas con menor detalle, el desempeño de los modelos cayó significativamente. OpenAI concluye que el mayor desafío no está en la potencia del modelo, sino en su comprensión del entorno laboral y cultural donde actúa.

Hacia una economía de tareas híbridas

Sin embargo, el estudio aborda no la perspectiva del reemplazo, sino de la sinergia. Según sus autores, la clave está en combinar la velocidad de los modelos con el juicio de los humanos. Esa interacción permite resultados más consistentes, responsables y contextualizados.

Las pruebas también revelan algo simbólico: los errores de la IA son recordatorios de que la precisión técnica no sustituye la mirada. En cambio, la colaboración guiada multiplica las capacidades de ambos.

OpenAI planea ampliar el proyecto con nuevas versiones del benchmark y una herramienta pública de evaluación disponible en OpenAI Evals. La meta: construir un termómetro confiable para medir la evolución del trabajo digital y sus impactos reales.

En palabras simples, la inteligencia artificial ya no se evalúa por lo que sabe, sino por lo que produce en contextos de valor económico. Y esa medición, más que un ranking tecnológico, inaugura un nuevo modo de entender la productividad: un territorio compartido entre la máquina y el criterio humano.

 

Comparte y dialoga el futuro
Scroll al inicio