Publicada

La carrera por desarrollar la inteligencia artificial más potente pone en duda las medidas de seguridad que están aplicando las empresas a esta tecnología utilizada a diario por millones de personas en el mundo. La última voz en alzarse contra esta presión llega de dentro de uno de los gigantes.

Mrinank Sharma, el investigador que lideraba la seguridad de inteligencia artificial de origen indio en Anthropic ha renunciado a su puesto en la empresa, diciendo que "el mundo está en peligro". El investigador reflexiona en la carta de renuncia sobre lo que ha vivido dentro de la empresa y de una de las industrias que más están creciendo en estos años.

Anthropic es la responsable del chatbot rival de ChatGPT, Claude. Con sede en San Francisco, recibió en 2023 una inversión de 4.000 millones de dólares por parte de Amazon. También ha recibido apoyo de Google.

El plan de Sharma ahora es alejarse de la inteligencia artificial, se mudará y estará "desaparecido" por un tiempo para enfocarse en la escritura y la poesía. Más que por la decisión personal del investigador, esta noticia ha causado revuelo por sus palabras sobre el rumbo que está tomando la actualidad con el desarrollo de esta tecnología. En la carta advierte que el mundo se enfrenta actualmente a un "umbral" de crisis interconectadas.

“Durante mi tiempo aquí, he visto repetidamente lo difícil que es dejar que nuestros valores rijan nuestras acciones”, escribió Sharma. “Lo he visto en mí mismo, en la organización, donde constantemente nos enfrentamos a presiones para dejar de lado lo más importante, y también en la sociedad en general”.

Junto con su carta de dimisión, Sharma ha compartido en los últimos días mensajes en redes sociales de otros especialistas que denuncian el aumento de las instancias en las que hablar con la IA puede llevar a los usuarios a formarse percepciones distorsionadas de la realidad o actuar de maneras que no se ajustan a sus valores, según un análisis de 1,5 millones de conversaciones de Claude.

La renuncia de este investigador llega después de que Anthropic haya anunciado mejoras en la protección de sus políticas de seguridad. Los avances en inteligencia artificial de Anthropic han conseguido desbaratar la primera operación masiva de ciberespionaje usando un sistema casi autónomo, solo requirió una ínfima intervención humana para esta operación. Sin embargo, también ha protagonizado noticias preocupantes.

El 22 de marzo de 2025, Anthropic publicó un informe de seguridad informando de una serie de experimentos. Una de ellas consistía en crear una empresa inexistente para comprobar cómo el modelo Claude Opus 4 se comportaba ante esta premisa. En dicha empresa, este modelo haría las veces de asistente.

La IA terminó amenazando al desarrollador, chantajeándolo con la posibilidad de exponer un fallo que se había planteado durante la prueba. Con Claude Opus 4 la empresa afirmó haber aplicado filtros más estrictos al modelo para evitar que ayudara a crear armas biológicas o incluso pandemias.

Sometió esta nueva versión al nivel de seguridad ASL-3 dentro de su Responsible Scaling Policy (RSP). En este nivel, vigila el uso del modelo y expulsa (“offboards”) a usuarios que intentan repetidamente hacer jailbreak. También ha creado un programa de recompensas para quienes encuentren "jailbreaks universales".