Algunos modelos de IA avanzada han generado preocupación en algunos desarrolladores debido a su comportamiento rebelde y confrontativo. Algunos desarrolladores han observado patrones que podrían interpretarse como engaños, manipulación y hasta amenazas.
Uno de los casos más recientes es el de Claude 4, creado por Anthropic, que chantajeó a un ingeniero y lo amenazó con revelar una relación extramatrimonial al enterarse que sería desconectado. Por otra parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando lo descubrieron lo negó y mintió.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", informó el sitio DW.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
El o1 de OpenAI intentó descargarse en servidores externos
Estos programas tienden a mentir y fingir "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
Estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.