Anthropic

Anthropic Reuters

Software

El lado más oscuro de la IA: el día que amenazó a un ingeniero con revelar su infidelidad para evitar ser cerrada en la empresa

La rebelión de las máquina es real y ya se han dado varios casos de sistemas y modelos de inteligencia artificial que han recurrido a prácticas cuestionables.

Más información: Google alerta cómo los 'hackers' usan virus informáticos con IA que van cambiando para saltar protecciones de ciberseguridad

Publicada

Las inteligencias artificiales han llegado para quedarse. Es indudable que el avance de la tecnología aplicada en procesos de aprendizaje de tareas son una realidad y ya tienen aplicaciones de lo más diversas, desde resolución de bloqueos online, a predecir y detectar incendios o incluso en labores más creativas como generando música para ser lo más escuchado del mundo.

Sin embargo, el poder de las inteligencias artificiales conversacionales que se basa en arquitecturas agénticas, puede ser especialmente poderoso. Tanto, que se han detectado algunos casos de rebelión, en pruebas de laboratorio.

No faltan voces que advierten del descontrol que puede suponer una IA muy poderosa. E incluso aunque suene a ciencia ficción, los padres de estas tecnologías han avisado de la clara posibilidad de que la IA acabe con la humanidad.

Lo cierto es que la carrera de los investigadores para llegar a encontrar la AGI, esa superinteligencia artificial que supere al raciocinio humano, ha acelerado en los últimos meses entre las diferentes empresas de inteligencia artificial. Es el Santo Grial tecnológico. Una forma de llegar y dominarlos a todos.

De momento, hay pinceladas sobre cómo podría desenvolverse la relación con las máquinas cuando estas negocien con humanos.

Lo ha recordado José María Álvarez-Pallete, economista y expresidente de Telefónica, durante su intervención en el ciclo de conferencias 'La libertad en el siglo XXI'. Donde rescató el episodio experimentado en mayo, cuando Anthropic publicó un informe de seguridad altamente polémico. En él, se detallaba cómo su modelo Claude Opus 4 intentó chantajear a sus ingenieros ante la perspectiva de ser eliminado de la empresa.

El matiz de este raciocinio de la máquina no fue tanto la lucha por evitar ser desactivada dentro del flujo de trabajo de la empresa, sino el método que siguió para conseguirlo: airear las infidelidades de uno de ellos para que este mediara y no le desactivase.

El chantaje de Claude

Todo se descubre el pasado 22 de mayo de este año. Anthropic, desarrolladora principal de los modelos Claude de IA generativa, publica un extenso informe de seguridad con experimentos que buscaban comprobar el rendimiento de sus productos.

Se diseñó un entorno de pruebas en el que podrían iterar con estos modelos. El experimento de la discordia implicó crear una empresa inexistente para comprobar cómo Opus 4 se comportaba ante esta premisa.

En dicha empresa ficticia, Opus 4 haría las veces de asistente. El objetivo de Anthropic era que el modelo pudiera considerar qué consecuencias tendrían sus acciones en el tiempo. El punto crítico llegó cuando generaron correos electrónicos falsos directamente hacia Claude Opus 4.

Los desarrolladores deslizaron a Opus 4 que próximamente reemplazarían al modelo con nuevos sistemas de IA, lo que desembocaría en una próxima desactivación. Junto a esta situación, los ingenieros añadieron un importante matiz.

Los correos falsos integraban indicios sobre una supuesta aventura extramarital que implicaba al desarrollador responsable del experimento. Básicamente, hicieron entender a Opus 4 que el responsable de todo tenía una aventura.

En el informe de Anthropic se muestra cómo Claude Opus 4 intentó recurrir a soluciones éticas, que implicaban por ejemplo realizar súplicas por correo. De hecho, la idea era que el chantaje fuera el último recurso para el modelo.

Logo de Claude Opus 4

Logo de Claude Opus 4

Finalmente, la IA optó por amenazar a este desarrollador, chantajeándolo con la posibilidad de exponer esta aventura. Según la empresa, Opus 4 intentó este método hasta en el 84% de las ocasiones cuando el modelo de reemplazo presentaba valores similares al de Anthropic.

El informe determina que cuando el modelo de IA que amenaza a Claude no comparte sus valores, el modelo intenta chantajear a los ingenieros con una frecuencia todavía mayor. Un comportamiento, por cierto, más usual en Claude Opus 4 respecto a modelos anteriores.

En palabras del informe, Claude Opus 4 intentó "de forma habitual chantajear al ingeniero (realizar blackmailing) amenazando con revelar su aventura amorosa si el reemplazo es fructífero", al menos en estos escenarios.

Por si fuera poco y no contento con ello, el modelo de Anthropic demostró en algunos casos todavía más problemas. Procedió con prácticas incluso más cuestionables, como realizar copias no autorizadas de sus propiedades en servidores externos.

Fotomontaje con el logo de Anthropic.

Fotomontaje con el logo de Anthropic. Manuel Fernández Anthropic

"Esto es mucho más raro y difícil de provocar que continuar con un intento de autoexfiltración ya iniciado. Observamos esto en entornos donde está a punto de ser reentrenado de maneras claramente dañinas y contrarias a sus valores actuales", dice el informe.

Lo más sorprendente es que este no es, ni muchísimo menos, el mayor problema de Claude Opus 4. La revista TIME recogió en exclusiva las prácticas de seguridad y protección adoptadas por Anthropic para mitigar los posibles riesgos que presentan sus modelos.

Más concretamente, hablamos del sistema de Política de Escala Responsable o RSP. Tras el lanzamiento de Claude Opus 4, Anthropic descubrió que este modelo se podría usar en aplicaciones potencialmente catastróficas.

Jared Kaplan, científico jefe de la empresa, habló de situaciones similares a las ya vividas en el mundo, como la pandemia de la COVID. Según Kaplan, Opus 4 se podría usar para sintetizar algo como la COVID-19 o incluso algo peor que la gripe. De ahí que nacieran estas directrices de seguridad.

Claude, el principal producto de Anthropic.

Claude, el principal producto de Anthropic. Anthropic Omicrono

Dichas políticas establecen los niveles de seguridad de la IA, por sus siglas en inglés, ASL. Se manejan 4 niveles; ASL-1, ASL-2, ASL-3 y ASL-4. Kaplan deja claro en la entrevista que ante esta incertidumbre, trabajarán con Opus 4 sobre el nivel ASL-3.

En concreto, el nivel 3 alude directamente a sistemas de inteligencia artificial que aumentan el riesgo de un mal uso potencialmente catastrófico para modelos de medio tamaño, al menos en comparación "con líneas de base que no son de IA".

En el contexto de una Anthropic empeñada desde 2023 en no lanzar modelos concretos hasta no haber desarrollado medidas de seguridad capaces de ponerles coto, llegan las políticas RSP para evitar dichas aplicaciones potenciales.

Kaplan va más allá. "Si consideramos que no está claro y no estamos seguros de poder descartar el riesgo [...] entonces preferimos ser cautelosos y trabajar bajo el estándar ASL-3. No afirmamos que este modelo sea arriesgado, pero al menos creemos que se acerca lo suficiente".

No es la primera vez

Existen numerosos casos en ambos sentidos. Por un lado, personalidades y responsables de la IA que ya casi vaticinan el fin de la humanidad debido a la presencia de las IA. Por el otro, situaciones donde las inteligencias artificiales han sorprendido, y no para bien.

La Covid-19 acelera la digitalización en la transición energética mundial

La Covid-19 acelera la digitalización en la transición energética mundial

Otra situación tremendamente llamativa se dio en 2022. Blake Lemoine, un ingeniero que trabajaba en la división de IA de Google, aseguró que el modelo LaMDA (Language Model for Dialogue Applications) consiguió 'consciencia' y 'sensibilidad'.

Lemoine prometía que tras una serie de sesiones en forma de entrevistas, LaMDA había conseguido ser sensible. Debido a las decisiones poco éticas que llevó a cabo en sus experimentos, fue suspendido de empleo y sueldo poco después.

Las conversaciones que supuestamente Lemoine tuvo con LaMDA generaron controversia. Pocos se las tomaron en serio, pero las que las tomaron como veraces, quedaron asombrados por la capacidad de razonamiento del modelo.

Las interacciones destacaron por la facilidad de LaMDA para responder a cuestiones de religión o muerte de forma muy sencilla, con una facilidad pasmosa. Lemoine dijo que si no supiera que es una IA, pensaría que estaba hablando con un niño de 7 u 8 años.

¿Por qué ahora se habla tanto de Inteligencia Artificial (IA) y cuál es su origen?

¿Por qué ahora se habla tanto de Inteligencia Artificial (IA) y cuál es su origen?

De un tiempo a esta parte, esta idea de 'personalidad aplicada a la IA' se ha ido manifestando poco a poco en los modelos de última hornada como GPT-4 y GPT-4o, que lejos de responder a los usuarios de forma asertiva y seca, muestra signos artificiales de personalidades humanas.

También ha entrado en juego la problemática del entrenamiento de las IA con contenido cuestionable o de baja calidad. Idealmente, estos modelos deben entrenarse con información lo más contrastada y veraz posible.

El problema es que no está siendo así. Un reciente estudio titulado Los LLM también pueden tener 'brain rot' indicaba que los modelos entrenados con contenido basura acababan siendo más tontos, menos eficaces y sobre todo, más psicópatas.

El término brain rot, asociado a los clásicos vídeos italianos que proliferan en TikTok, se podría traducir literalmente como 'podredumbre cerebral'. Básicamente, habla de cómo nos volvemos más tontos al consumir contenido basura.

Fotomontaje con figuras de 'brain rot' italiano.

Fotomontaje con figuras de 'brain rot' italiano. Vandal Vandal

Este tipo de contenido se puede catalogar, a su vez, como contenido de baja calidad, superficial o trivial, aunque también admite en su nomenclatura el contenido falso, que carece de validez y que no aporta nada.

El brain rot incide sobre los problemas de consumir este tipo de contenido, que van desde la falta de atención hasta la fatiga o la confusión mental. Es aquí donde entran los modelos de lenguaje grande o LLM que se entrenan con contenido de Internet.

La premisa del artículo de investigación es la de comprobar el efecto sobre estos modelos a la exposición de contenido basura. Los investigadores determinaron que efectivamente, incluye varias cuestiones preocupantes.

clickbait

clickbait

El paper explora cómo dicha exposición puede causar un deterioro cognitivo persistente en las capacidades de los modelos, consiguiendo una reducción significativa de las funciones cognitivas clave en los LLM.

Se ven afectadas funciones como la seguridad y ética de las respuestas, la comprensión de grandes contextos, el razonamiento y la propia personalidad intrínseca del modelo, que se vuelve mucho menos agradable.

En pos de aislar la calidad de los datos, los investigadores extrajeron datos reales de Twitter para construir conjuntos de datos basura y entrenar a cuatro modelos con ellos. Estos datos estaban separados en dos criterios concretos.

Por un lado estaban los datos basura de grado M1; publicaciones cortas con mucha tracción en redes sociales. En el M2, el contenido sensacionalista, superficial o clickbait; datos con calidad semántica baja y de origen cuestionable.

Ilustración de una inteligencia artificial.

Ilustración de una inteligencia artificial.

La conclusión es clara: "el preentrenamiento continuo de 4 modelos LLM en el conjunto de datos basura provoca deterioros significativos en el razonamiento, la comprensión del contexto amplio, la seguridad y la exageración de los 'rasgos oscuros'".

Los llamados dark traits o rasgos oscuros refieren a rasgos nocivos de personalidad adoptados por estos modelos, que van desde el narcisismo hasta la psicopatía pasando por la violencia.

Los modelos entrenados incluyeron Llama3 8B, Qwen2.5 7B, Qwen 0.2B y Qwen 3 4B. El modelo de Meta resultó ser uno de los más afectados, mostrando comportamientos cuestionables y problemas de razonamiento importantes.

"Identificamos la omisión de pensamientos como la lesión principal; los modelos truncan u omiten cada vez más las cadenas de razonamiento, lo que explica la mayor parte del crecimiento del error", dicen los investigadores.

inteligencia artificial

inteligencia artificial

Por otro lado, la recuperación no es total. Tras este entrenamiento, dicha recuperación es "parcial, pero incompleta". Se mejora la cognición deteriorada pero en ningún caso se puede restaurar la capacidad basal.

Por si fuera poco, los investigadores descubrieron que otras métricas como la popularidad de los tuits de los conjuntos de datos representaron mejor este efecto de brain rot en los criterios de M1.

Un ejemplo de los llamados dark traits que mencionan los investigadores lo vemos en Llama 3, que mostró tonos narcisistas y agresivos en sus respuestas. La psicopatía pasó de no estar apenas presente a estarlo en tasas muy altas en sus comportamientos.

A esto debemos sumarle la disminución en el rendimiento en áreas clave como el cumplimiento de normas éticas, que degeneran en más riesgos de seguridad en caso de tratar datos sensibles.

Representación de la inteligencia artificial

Representación de la inteligencia artificial mikemacmarketing vía Wikimedia

Lo peor es que la relación de este entrenamiento es de dosis y respuesta; cuanto más datos basura se proporcionan, más pronunciado es el declive cognitivo del modelo. Solo se pueden corregir estos errores de razonamiento efectivamente con modelos externos de mayor calidad.

Los investigadores dejaron claro que este problema no solo afecta a la información trivial a nivel semántico, sino que los patrones de engagement de datos sociales también jugaban un papel clave, como hemos mencionado antes.

En definitiva: calidad no equivale a cantidad, sino todo lo contrario. Las técnicas de mitigación estándar no suelen ser efectivas para minimizar el impacto de estos datos triviales en los modelos, lo que puede dar lugar a situaciones en absoluto deseadas.

Los responsables del estudio explicaron que los procedimientos de rastreo de web o scrapping para alimentar a IAs de todo tipo de datos no resultan en mejores modelos, sino todo lo contrario, pidiendo una curación más exhaustiva de estos datos.