Dos de los elementos más característicos del llamado 'Brainrot italiano'.

Dos de los elementos más característicos del llamado 'Brainrot italiano'. Vandal Vandal

Software

El 'clickbait' de internet está volviendo loca a la IA: los modelos experimentan un enorme "deterioro cognitivo"

Investigadores denuncian cómo este tipo de contenido provoca problemas difícilmente reversibles en algunos de los LLM más importantes del mercado.

Más información: El oscuro contenido del que aprende la IA: se entrena con miles de imágenes de abuso infantil

Publicada

Los modelos de inteligencia artificial no son mágicos. Los servicios disponibles en España y en el resto del mundo se entrenan con ingentes contenidos de Internet, incluyendo los que los usuarios generan a diario. Esto ha resultado ser un problema.

Investigadores de la Universidad Texas A&M, la Universidad de Purdue y la Universidad de Texas en Austin quisieron comprobar cómo podía afectar el contenido del tipo brain rot en un modelo de lenguaje grande (LLM).

Los hallazgos, publicados en un estudio titulado Los LLM también pueden tener 'brain rot', determinan que estos modelos son menos eficientes en tareas clave cuando se les entrena con contenido basura. Y más psicópatas, además.

¿Qué es el brain rot?

El término brain rot, asociado a los clásicos vídeos italianos que proliferan en TikTok, se podría traducir literalmente como 'podredumbre cerebral'. Básicamente, habla de cómo nos volvemos más tontos al consumir contenido basura.

Este tipo de contenido se puede catalogar, a su vez, como contenido de baja calidad, superficial o trivial, aunque también admite en su nomenclatura el contenido falso, que carece de validez y que no aporta nada.

Fotomontaje con figuras de 'brain rot' italiano.

Fotomontaje con figuras de 'brain rot' italiano. Vandal Vandal

El brain rot incide sobre los problemas de consumir este tipo de contenido, que van desde la falta de atención hasta la fatiga o la confusión mental. Es aquí donde entran los modelos de lenguaje grande o LLM que se entrenan con contenido de Internet.

Para entrenar estos modelos, los laboratorios y empresas de inteligencia artificial consumen una cantidad prácticamente infinita de contenido expuesto en la web. Este contenido, idealmente, debe de ser de la mejor calidad posible.

Al ser datos que la IA usa para procesar sus respuestas y cuestiones como su razonamiento, estos deben ser de calidad, para evitar problemas asociados —datos erróneos, alucinaciones, etcétera—. Esto no está siendo así.

Peores IAs (y más psicópatas)

La premisa del artículo de investigación es la de comprobar el efecto sobre estos modelos a la exposición de contenido basura. Los investigadores determinaron que efectivamente, incluye varias cuestiones preocupantes.

clickbait

clickbait

El paper explora cómo dicha exposición puede causar un deterioro cognitivo persistente en las capacidades de los modelos, consiguiendo una reducción significativa de las funciones cognitivas clave en los LLM.

Se ven afectadas funciones como la seguridad y ética de las respuestas, la comprensión de grandes contextos, el razonamiento y la propia personalidad intrínseca del modelo, que se vuelve mucho menos agradable.

En pos de aislar la calidad de los datos, los investigadores extrajeron datos reales de Twitter para construir conjuntos de datos basura y entrenar a cuatro modelos con ellos. Estos datos estaban separados en dos criterios concretos.

Por un lado estaban los datos basura de grado M1; publicaciones cortas con mucha tracción en redes sociales. En el M2, el contenido sensacionalista, superficial o clickbait; datos con calidad semántica baja y de origen cuestionable.

Ilustración de una inteligencia artificial.

Ilustración de una inteligencia artificial.

La conclusión es clara: "el preentrenamiento continuo de 4 modelos LLM en el conjunto de datos basura provoca deterioros significativos en el razonamiento, la comprensión del contexto amplio, la seguridad y la exageración de los 'rasgos oscuros'".

Los llamados dark traits o rasgos oscuros refieren a rasgos nocivos de personalidad adoptados por estos modelos, que van desde el narcisismo hasta la psicopatía pasando por la violencia.

Los modelos entrenados incluyeron Llama3 8B, Qwen2.5 7B, Qwen 0.2B y Qwen 3 4B. El modelo de Meta resultó ser uno de los más afectados, mostrando comportamientos cuestionables y problemas de razonamiento importantes.

"Identificamos la omisión de pensamientos como la lesión principal; los modelos truncan u omiten cada vez más las cadenas de razonamiento, lo que explica la mayor parte del crecimiento del error", dicen los investigadores.

inteligencia artificial

inteligencia artificial

Por otro lado, la recuperación no es total. Tras este entrenamiento, dicha recuperación es "parcial, pero incompleta". Se mejora la cognición deteriorada pero en ningún caso se puede restaurar la capacidad basal.

Por si fuera poco, los investigadores descubrieron que otras métricas como la popularidad de los tuits de los conjuntos de datos representaron mejor este efecto de brain rot en los criterios de M1.

Un ejemplo de los llamados dark traits que mencionan los investigadores lo vemos en Llama 3, que mostró tonos narcisistas y agresivos en sus respuestas. La psicopatía pasó de no estar apenas presente a estarlo en tasas muy altas en sus comportamientos.

A esto debemos sumarle la disminución en el rendimiento en áreas clave como el cumplimiento de normas éticas, que degeneran en más riesgos de seguridad en caso de tratar datos sensibles.

Representación de la inteligencia artificial

Representación de la inteligencia artificial mikemacmarketing vía Wikimedia

Lo peor es que la relación de este entrenamiento es de dosis y respuesta; cuanto más datos basura se proporcionan, más pronunciado es el declive cognitivo del modelo. Solo se pueden corregir estos errores de razonamiento efectivamente con modelos externos de mayor calidad.

Los investigadores dejaron claro que este problema no solo afecta a la información trivial a nivel semántico, sino que los patrones de engagement de datos sociales también jugaban un papel clave, como hemos mencionado antes.

En definitiva: calidad no equivale a cantidad, sino todo lo contrario. Las técnicas de mitigación estándar no suelen ser efectivas para minimizar el impacto de estos datos triviales en los modelos, lo que puede dar lugar a situaciones en absoluto deseadas.

Los responsables del estudio explicaron que los procedimientos de rastreo de web o scrapping para alimentar a IAs de todo tipo de datos no resultan en mejores modelos, sino todo lo contrario, pidiendo una curación más exhaustiva de estos datos.