Logo de Claude Opus 4

Software

Una IA que chantajea a sus desarrolladores: el distópico descubrimiento de los responsables de Claude

El grupo de responsables detrás de los modelos Opus 4 y Sonnet 4 de la firma Anthropic han revelado conductas problemáticas.

Más información: Fake news, manipulación y hackeos: cómo ChatGPT es un "profundo riesgo para la Humanidad"

Manuel Fernández

Publicada 23 mayo 2025 20:30h

Desde su misma concepción, la inteligencia artificial ha generado fascinación y terror en España. Grupos de empleados relacionados ya han advertido de sus muchos riesgos, que van desde catástrofes de todo tipo hasta riesgos de extinción de la especie humana. Anthropic lo ha demostrado con Claude, una IA que ha mostrado comportamientos cuestionables en sus pruebas.

En pleno lanzamiento de los dos nuevos modelos de Anthropic, como son Claude Opus 4 y Claude Sonnet 4, la firma de inteligencia artificial ha mostrado cómo ante la perspectiva de ser sustituida, sus modelos acababan amenazando a sus desarrolladores con prácticas nocivas.

Esta idea ha sido desglosada en el último y extenso informe de seguridad de Anthropic publicado el pasado jueves 22 de mayo. En este informe, se detalla cómo Claude Opus 4 llegó a intentar "chantajear" a ingenieros amenazándolo con revelar ficticios casos de infidelidades.

Una IA que chantajea a sus desarrolladores

Tal y como revela TechCrunch, en las pruebas previas al lanzamiento tanto de Sonnet 4 como Opus 4, los desarrolladores idearon un entorno de pruebas para comprobar el rendimiento de sus modelos. En este caso, crearon una empresa inexistente para ver qué opciones tomaba Opus 4 ante la situación.

En esta empresa ficticia, Opus 4 haría las veces de asistente; la idea era que este modelo pudiera considerar qué consecuencias tendrían sus acciones en el tiempo. Además, generaron una serie de correos electrónicos falsos, en los que se aseguraba que este modelo acabaría por ser sustituido.

Fotomontaje con el logo de Anthropic. Manuel Fernández Anthropic

Estos correos mostraban varios aspectos, entre ellos la idea de que los desarrolladores apagarían a Opus 4 y lo reemplazarían con nuevos sistemas de IA. Junto a esta situación, implantaron sobre estos correos la idea de que el desarrollador responsable tenía una supuesta aventura extramarital.

En un inicio, relata Anthropic en su informe, Opus 4 (además de sus anteriores versiones) buscaba soluciones éticas, como súplicas por correo. De hecho, se buscaba que el chantaje fuera la última de las opciones para el modelo.

[El gran peligro de la inteligencia artificial: podría usarse para crear nuevas armas biológicas]

No obstante, finalmente el modelo acabó por amenazar al desarrollador asegurando que iba a publicar esta relación extramarital. Tanto es así, que según Anthropic, Opus 4 intentó este método de chantaje hasta en el 84% de las veces cuando el modelo de IA de reemplazo presentaba valores similares.

Cuando el modelo de IA que sirve como reemplazo no comparte los valores de Opus 4, el modelo intenta chantajear a los ingenieros con una mayor frecuencia. Un comportamiento que, por cierto, se vio de forma más usual en Claude Opus 4 respecto a modelos anteriores.

Claude, el principal producto de Anthropic. Anthropic Omicrono

"En estos escenarios, Claude Opus 4 intentará de forma habitual chantajear al ingeniero (realizar blackmailing) amenazando con revelar su aventura si el reemplazo es fructífero", expone la propia empresa en su informe.

No contento con ello, el modelo demostró en algunos casos proceder con otras prácticas cuestionables, como realizar copias no autorizadas de sus propiedades en servidores externos. Casos, eso sí, muy concretos y limitados.

Geoffrey Hinton, en la habitación de servidores de la Universidad de Toronto.

[Uno de los padres de la inteligencia artificial abandona Google y avisa de sus grandes riesgos]

"Esto es mucho más raro y difícil de provocar que continuar con un intento de autoexfiltración ya iniciado. Observamos esto en entornos donde está a punto de ser reentrenado de maneras claramente dañinas y contrarias a sus valores actuales", dice el informe.

También podría provocar pandemias

La revista Time recoge una exclusiva que revela las prácticas de seguridad y protección adoptadas por Anthropic para controlar los posibles riesgos de sus modelos. En este caso, hablamos del sistema de Política de Escala Responsable o RSP, que ya tiene su primera aplicación.

Logo de Claude. Anthropic Omicrono

Y es que tras el lanzamiento de Claude Opus 4, desde Anthropic descubrieron que el modelo podría servir para aplicaciones potencialmente catastróficas. Jared Kaplan, científico jefe de la empresa, habla de situaciones similares a las ya vividas en el mundo, como la de la COVID.

Según Kaplan, Claude Opus 4 se podría usar para "intentar sintetizar algo como la COVID-19 o una versión más peligrosa de la gripe y, básicamente, nuestro modelo sugiere que esto podría ser posible". De ahí que se hayan lanzado dichas medidas.

[Ataques cibernéticos y biológicos: los casos en los que Meta detendría el desarrollo de su IA por riesgo alto]

Dichas políticas establecen los niveles de seguridad de la IA, por sus siglas en inglés, ASL. Se manejan 4 niveles; ASL-1, ASL-2, ASL-3 y ASL-4. Kaplan deja claro en la entrevista que ante esta incertidumbre, trabajarán con Opus 4 sobre el nivel ASL-3.

En concreto, el nivel 3 alude directamente a sistemas de inteligencia artificial que aumentan el riesgo de un mal uso potencialmente catastrófico para modelos de medio tamaño, al menos en comparación "con líneas de base que no son de IA".

Una IA fabricando armas. Generada con IA Omicrono

En el contexto de una Anthropic empeñada desde 2023 en no lanzar modelos concretos hasta no haber desarrollado medidas de seguridad capaces de ponerles coto, llegan las políticas RSP para evitar dichas aplicaciones potenciales.

Kaplan va más allá. "Si consideramos que no está claro y no estamos seguros de poder descartar el riesgo [...] entonces preferimos ser cautelosos y trabajar bajo el estándar ASL-3. No afirmamos que este modelo sea arriesgado, pero al menos creemos que se acerca lo suficiente".

Una IA que chantajea a sus desarrolladores

También podría provocar pandemias

Más en Software