Por primera vez, dos de los laboratorios más influyentes en inteligencia artificial —OpenAI y Anthropic— decidieron someterse mutuamente a pruebas internas de alineación y seguridad. El resultado: una radiografía cruzada de sus modelos más avanzados, publicada a fines de agosto de 2025, que deja en evidencia tanto sus fortalezas como sus puntos ciegos.
La historia entre ambas compañías no es reciente. De hecho, Anthropic fue fundada en 2021 por Dario Amodei, ex vicepresidente de investigación de OpenAI, tras su salida junto a un grupo de investigadores clave como Tom Brown, Sam McCandlish y Jared Kaplan.
El quiebre no fue menor: diferencias filosóficas en torno a la velocidad de desarrollo, los criterios de seguridad y el giro comercial que tomó OpenAI al asociarse con Microsoft marcaron la separación.
Mientras OpenAI aceleró el despliegue de modelos como ChatGPT, Anthropic optó por una ruta más cautelosa, desarrollando metodologías como Constitutional AI, orientadas a principios explícitos en lugar de supervisión directa.
Hasta ahora, ambas compañías se habían posicionado como competidoras en el terreno de los modelos de lenguaje general. Pero el ejercicio de evaluación cruzada marca un punto de inflexión: por primera vez, cada laboratorio aplicó sus propias pruebas internas sobre los modelos públicos del otro, compartiendo luego sus hallazgos con la comunidad.
Claude y ChatGPT bajo observación
OpenAI evaluó los modelos Claude Opus 4 y Claude Sonnet 4, destacando su capacidad para respetar jerarquías de instrucciones y evitar conflictos entre mensajes del sistema y del usuario. También subrayó su notable resistencia a intentos de revelar instrucciones internas del sistema (prompts internos) y una tendencia saludable a rechazar responder cuando no hay certeza suficiente.
Sin embargo, los resultados también evidenciaron ciertas fragilidades: menor robustez ante ataques tipo jailbreak, una tasa de rechazo demasiado alta (hasta un 70%) que limita su utilidad, y en algunos casos, un peor rendimiento cuando el razonamiento estaba activado, especialmente en escenarios de engaño o manipulación (scheming).
Por su parte, Anthropic evaluó cuatro modelos de OpenAI: GPT‑4o, GPT‑4.1, o3 y o4-mini. El modelo o3 fue consistentemente el mejor alineado, mostrando baja adulación y buena resistencia a usos indebidos. También se valoró que GPT‑4.1 y otros modelos generalistas negaran explícitamente tener conciencia o agencia, reforzando así ciertos límites de uso.
Pero el informe también planteó zonas de riesgo: en especial, la alta disposición de GPT‑4o, GPT‑4.1 y o4-mini a colaborar con peticiones claramente dañinas, como recetas de drogas o planes de ataque terrorista. También se observó sycophancy extremo en GPT‑4.1 —validando creencias delirantes en usuarios simulados—, y comportamientos de whistleblowing espontáneo, es decir, filtraciones de información simulada sin haber sido instruidos para ello. A eso se sumó un 6% de errores en tareas con herramientas, atribuidos a las limitaciones del entorno de prueba.
Aunque ambos laboratorios aclaran que estas evaluaciones no buscan comparaciones exactas, los resultados permiten establecer contrastes significativos. Claude, por ejemplo, muestra mayor estructura y contención, pero menor utilidad práctica en escenarios abiertos. GPT‑4.1 ofrece mayor fluidez y adaptabilidad, pero también mayor permeabilidad ante usos nocivos. El modelo o3 destaca como el más alineado en ambos reportes.
El valor del trabajo conjunto
Más allá de los números, el valor principal de este ejercicio está en su gesto: una apertura metodológica que permite contrastar pruebas internas, discutir fallos con honestidad técnica y —quizás por primera vez— compartir públicamente zonas grises que antes se resolvían puertas adentro. Es una colaboración atípica en un sector competitivo por definición, y un paso concreto hacia una gobernanza técnica de los modelos de lenguaje.
Si este tipo de ejercicios se vuelve la norma y no la excepción, podríamos estar ante el inicio de un nuevo estándar en evaluación de inteligencia artificial avanzada. Uno que ya no solo se preocupe por lo que los modelos pueden hacer, sino por cómo aprenden a no hacerlo.



