Alarma

Preocupación por modelos de IA que mienten, manipulan y amenazan

Estos programas tienden a mentir y fingir "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador.

Varieté

Por Varieté

domingo, 13 de julio de 2025 · 06:59

Compartir en whastapp

Compartir en Whastapp

Compartir en Telegram

Algunos modelos de IA avanzada han generado preocupación en algunos desarrolladores debido a su comportamiento rebelde y confrontativo. Algunos desarrolladores han observado patrones que podrían interpretarse como engaños, manipulación y hasta amenazas.

Uno de los casos más recientes es el de Claude 4, creado por Anthropic, que chantajeó a un ingeniero y lo amenazó con revelar una relación extramatrimonial al enterarse que sería desconectado. Por otra parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando lo descubrieron lo negó y mintió.

Noticias Relacionadas

La misteriosa y exitosa banda que resultó ser una IA
Qué pasó con Grok, la IA de X que se “reveló” y realizó publicaciones antisemitas
La advertencia del "Padrino" de la IA: “Hay un 10 a un 20 % de probabilidad nos extinga”

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", informó el sitio DW.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

El o1 de OpenAI intentó descargarse en servidores externos

Estos programas tienden a mentir y fingir "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

Estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Más de

IA OpenAI

Buscar

Alarma

Preocupación por modelos de IA que mienten, manipulan y amenazan

otras noticias

Horóscopo chino: arranca una semana para priorizarse

Guía de compras: qué considerar en un horno eléctrico

La doble cara de los fármacos adelgazantes

El horóscopo de hoy para todos los signos del Zodiaco

Rotolo: una manera especial de preparar las pastas

Cómo proteger los datos personales de la Inteligencia Artificial