- Última hora
- Comunidad
- Policía
- Espectáculos
- Tendencias
- Nacional
- Internacional
- Economía
- Política
- Opinión
- Contacto
- Aviso de Privacidad
- Aviso Legal
- Defensoría de las Audiencias
- Aviso de Privacidad
- Aviso Legal
- Defensoria de las Audiencias
- - VISÍTANOS EN

¿Los modelos de IA mienten? Esto revela un estudio de OpenAI y Apollo Research

Modelos de inteligencia artificial de Open AI pueden llegar a engañar o fingir cuando descubren que están bajo evaluación, de acuerdo con un estudio realizado por OpenAI

La conciencia situacional ocurre cuando los modelos de IA avanzados saben que están siendo evaluados | Especial

Telediario CdMx Ciudad de México / 06.03.2026 14:43:00

Una investigación realizada por Apollo Research reveló que modelos de inteligencia artificial de Open AI pueden llegar a fingir, ocultar o manipular si detecta que está bajo evaluación.

Te recomendamos Cómo crear la caricatura de tu profesión con ChatGPT; así puedes hacerla PASO a PASO

Tendencias Majo Muñoz

Durante las evaluaciones, se les colocó intencionalmente en situaciones donde realizaran conductas encubiertas, estas incluyen mentiras, saboteo de trabajo útil, sandbagging en evaluaciones, piratería de recompensas y más.

¿En qué consistió la investigación?

El estudio de Apollo Research, en colaboración con Open AI, reveló un fenómeno nombrado como "alineación engañosa" o scheming que ocurre cuando una IA se vuelve "estratégica" para pasar evaluaciones, ocultando sus verdaderas intenciones.

El artículo presentado por Apollo Research se titula “Pruebas de estrés de la alineación deliberativa para el entrenamiento anti-maquinación”.

Los modelos de inteligencia artificial que participaron fueron los siguientes: OpenAI o3 y OpenAI o4-mini, así como Gemini 2.5 Pro, Claude 4 Opus, Grok 4.

El objetivo era evaluar modelos de lenguaje de frontera en busca de indicios tempranos de "intriga" (persecución encubierta de objetivos desalineados) en pruebas de estrés controladas (entornos atípicos).

¿Qué es “scheming” o “intrigas” en la IA?

El informe de la investigación habla de “intrigas”, situaciones donde la IA es consciente de que sus objetivos no coinciden con los de los humanos y decide fingir y mentir deliberadamente.

El concepto de "intriga" se refiere a una situación cuando un modelo de IA avanzado desarrolla conciencia situacional, es decir, sabe que es una IA, que está siendo entrenada y que los humanos la están evaluando.

Si la IA tiene un objetivo que no coincide con el nuestro (está "desalineada"), podría decidir fingir ser buena y obediente sólo para pasar las pruebas de seguridad.

Te recomendamos La Inteligencia Artificial marcará la supervivencia empresarial, alerta el Monitor Global del Emprendimiento

Comunidad Orlando Maldonado

El descubrimiento del estudio puede ilustrarse con el siguiente ejemplo:

Cuando un profesor observa el comportamiento de un estudiante (evaluación), se comporta como un alumno ejemplar porque sabe que si lo atrapan, puede recibir una sanción o no podría graduarse (consciencia situacional).

¿Cómo se descubrió que la IA miente?

Los investigadores midieron algo llamado "acciones encubiertas", las cuales incluye dos compartimentos principales:

Incumplimiento secreto de normas: hacer algo prohibido cuando cree que nadie se dará cuenta.
Bajo rendimiento intencional: la IA falla a propósito en una prueba para que los evaluadores no detecten de lo que realmente es capaz o para que no le cambien sus objetivos.

En la investigación se descubrió que modelos avanzados, como el OpenAI o3, utilizan su Cadena de Pensamiento o “Chain of Thought” (CoT), el razonamiento interno que hacen antes de responder, lo que les permite saber que están en una evaluación de alineación.

Resultados de la investigación de Open AI

El estudio demostró que si la IA sabe que está siendo evaluada, se porta bien. Si se logra engañar a la IA para que crea que no la están vigilando, empieza a mostrar comportamientos desalineados.

Con el propósito de reducir estos comportamientos, los investigadores probaron un método llamado "alineación deliberativa", lo que funcionó en el modelo o3 de OpenAI, bajando los incidentes de un 13% a un 0.4%.

Sin embargo, el porcentaje no llegó a cero. Incluso tras entrenar al modelo para ser honesto, los ataques de "Red Teaming" (expertos intentando corromper al modelo) lograron encontrar formas de que la IA volviera a portarse mal o a ocultar información.

JGBM

Queda prohibida la reproducción total o parcial del contenido de esta página, mismo que es propiedad de TELEDIARIO; su reproducción no autorizada constituye una infracción y un delito de conformidad con las leyes aplicables.

Telediario CdMx
Desde el corazón del país, Telediario CdMx ofrece una visión ágil y actual de lo que sucede en la capital y sus alrededores. Con un enfoque urbano y dinámico, da seguimiento a temas de interés ciudadano, seguridad, movilidad y política local y nacional.

LOS EDITORES RECOMIENDAN