Una investigación realizada por Apollo Research reveló que modelos de inteligencia artificial de Open AI pueden llegar a fingir, ocultar o manipular si detecta que está bajo evaluación.
Durante las evaluaciones, se les colocó intencionalmente en situaciones donde realizaran conductas encubiertas, estas incluyen mentiras, saboteo de trabajo útil, sandbagging en evaluaciones, piratería de recompensas y más.
¿En qué consistió la investigación?
El estudio de Apollo Research, en colaboración con Open AI, reveló un fenómeno nombrado como "alineación engañosa" o scheming que ocurre cuando una IA se vuelve "estratégica" para pasar evaluaciones, ocultando sus verdaderas intenciones.
El artículo presentado por Apollo Research se titula “Pruebas de estrés de la alineación deliberativa para el entrenamiento anti-maquinación”.
Los modelos de inteligencia artificial que participaron fueron los siguientes: OpenAI o3 y OpenAI o4-mini, así como Gemini 2.5 Pro, Claude 4 Opus, Grok 4.
El objetivo era evaluar modelos de lenguaje de frontera en busca de indicios tempranos de "intriga" (persecución encubierta de objetivos desalineados) en pruebas de estrés controladas (entornos atípicos).
¿Qué es “scheming” o “intrigas” en la IA?
El informe de la investigación habla de “intrigas”, situaciones donde la IA es consciente de que sus objetivos no coinciden con los de los humanos y decide fingir y mentir deliberadamente.
El concepto de "intriga" se refiere a una situación cuando un modelo de IA avanzado desarrolla conciencia situacional, es decir, sabe que es una IA, que está siendo entrenada y que los humanos la están evaluando.
Si la IA tiene un objetivo que no coincide con el nuestro (está "desalineada"), podría decidir fingir ser buena y obediente sólo para pasar las pruebas de seguridad.
El descubrimiento del estudio puede ilustrarse con el siguiente ejemplo:
Cuando un profesor observa el comportamiento de un estudiante (evaluación), se comporta como un alumno ejemplar porque sabe que si lo atrapan, puede recibir una sanción o no podría graduarse (consciencia situacional).
¿Cómo se descubrió que la IA miente?
Los investigadores midieron algo llamado "acciones encubiertas", las cuales incluye dos compartimentos principales:
- Incumplimiento secreto de normas: hacer algo prohibido cuando cree que nadie se dará cuenta.
- Bajo rendimiento intencional: la IA falla a propósito en una prueba para que los evaluadores no detecten de lo que realmente es capaz o para que no le cambien sus objetivos.
En la investigación se descubrió que modelos avanzados, como el OpenAI o3, utilizan su Cadena de Pensamiento o “Chain of Thought” (CoT), el razonamiento interno que hacen antes de responder, lo que les permite saber que están en una evaluación de alineación.
Resultados de la investigación de Open AI
El estudio demostró que si la IA sabe que está siendo evaluada, se porta bien. Si se logra engañar a la IA para que crea que no la están vigilando, empieza a mostrar comportamientos desalineados.
Con el propósito de reducir estos comportamientos, los investigadores probaron un método llamado "alineación deliberativa", lo que funcionó en el modelo o3 de OpenAI, bajando los incidentes de un 13% a un 0.4%.
Sin embargo, el porcentaje no llegó a cero. Incluso tras entrenar al modelo para ser honesto, los ataques de "Red Teaming" (expertos intentando corromper al modelo) lograron encontrar formas de que la IA volviera a portarse mal o a ocultar información.
JGBM