Concepto de inteligencia artificial.

Concepto de inteligencia artificial. iStock

Política Digital

La inteligencia artificial ya escribe un tercio de todo lo que hay en internet, cuyo contenido es más uniforme y optimista

Dos investigaciones coinciden en que entre el 35% y el 40% del contenido web ya es obra de máquinas. Los investigadores rechazan que la IA promueva la desinformación, pero alertan de la pérdida de diversidad y perspectiva.

Más información: Así funciona el 'AI-washing', la gran mentira de la última revolución tecnológica

Publicada
Las claves

Las claves

Entre el 35% y el 40% del contenido actual en internet ya ha sido generado o asistido por inteligencia artificial, según dos investigaciones recientes.

El uso de IA en la creación de textos ha provocado una homogeneización semántica: los contenidos son cada vez más similares y presentan un tono más positivo que los escritos por humanos.

Los estudios descartan que los textos generados por IA contengan más desinformación que los humanos, pero advierten sobre la pérdida de diversidad y matices en la web.

Existe preocupación por el 'bucle autofágico', donde los modelos de IA se entrenan sobre textos generados por otras IA, lo que podría degradar progresivamente la calidad y diversidad del contenido.

Hubo un tiempo en que internet era puro caos, lleno de opiniones contradictorias, errores tipográficos, webs y foros con imagen de haber sido abandonados hace tiempo. Un tiempo en que las redes sociales eran fiel reflejo de la humanidad imperfecta, de cómo hablamos y escribimos, influenciados por las prisas, por las emociones...

Pero, de unos años a esta parte, ese internet ha desaparecido para convertirse en una amalgama de publicaciones y portales robóticos, sin alma ni corazón, perfectos en continente y vacíos de contenido.

Es una sensación subjetiva más que compartida por los usuarios de redes sociales como LinkedIn o X, donde pueden verse las multiplicaciones de un mismo post hasta la saciedad y el mismo estilo de escritura en miles de usuarios diferentes. Resulta evidente que la irrupción en escena de la inteligencia artificial tiene mucho que ver en esto.

Empero, no sólo se trata de una impresión compartida en el imaginario colectivo: ahora dos investigaciones científicas, elaboradas de forma independiente y con metodologías distintas, confirman la mayor.

Y es que entre el 35% y el 40% del contenido que puebla la web actual ya ha sido generado o asistido por inteligencia artificial. Un porcentaje extraordinario que convierte a la IA en la fuerza editorial más prolífica de la historia.

Antes de ChatGPT todo apestaba a humano

El primer estudio, firmado por investigadores del Imperial College de Londres, la Universidad de Stanford y el Internet Archive, establece claramente en el éxito de ChatGPT allá por noviembre de 2022 el inicio del fenómeno. Antes de esa fecha, afirman los científicos, la proporción de sitios web nuevos con contenido generado por IA era, en la práctica, cero.

Hacia mediados de 2025, esa cifra había escalado hasta el ya mentado 35% de todos los nuevos dominios activos.

Para llegar a este dato, los investigadores extrajeron una muestra representativa de páginas web de la Wayback Machine del Internet Archive -a la sazón, la mayor hemeroteca digital del mundo- y aplicaron el detector de IA Pangram Labs v3, seleccionado tras comparar cuatro herramientas distintas por su mayor fiabilidad. Complementaron el análisis empírico con una encuesta a 853 adultos estadounidenses para medir la brecha entre la percepción pública y la preocupante realidad.

El segundo estudio, publicado por el investigador Dirk H.R. Spennemann, aborda el problema desde otro ángulo. En lugar de analizar solo sitios nuevos, examinó el conjunto de páginas activas en la web, usando como marcadores las palabras y construcciones lingüísticas características del texto producido por ChatGPT.

Su conclusión fue similar a la de sus compañeros: al menos el 30% del texto en la web activa es de origen artificial, y la proporción real se aproxima al 40%.

La IA no contribuye a desinformar

Lo primero que se nos viene a muchos a la cabeza a tenor de estas cifras es cómo esta multiplicación de contenido artificial puede contribuir a la desinformación ya galopante que vivimos en esta era. Pues bien, los datos del estudio del Imperial College apuntan en una dirección diferente.

De acuerdo a estos expertos, los textos generados por IA no son especialmente más inexactos que los humanos ni contienen más desinformación demostrable. Igualmente, afirman, no evitan los enlaces externos ni producen artículos más largos pero más vacíos. El estudio refuta de hecho estadísticamente cinco hipótesis ampliamente extendidas sobre los efectos negativos del contenido artificial pese a que la mayoría de los encuestados afirmó creer que todos esos efectos están ocurriendo.

Eso no implica que esta clase de contenidos creados con IA no tengan una vertiente negativa e igualmente preocupante. Es la que atañe a la homogeneización semántica: según los académicos, los textos generados por IA son un 33% más similares entre sí que los textos escritos por humanos, con lo que la diversidad de ideas, enfoques y perspectivas se reduce al extremo.

Y hay algo más, sorprendente cuanto menos: los textos de IA presentan un 107% más de tono positivo que los humanos. Los investigadores la han denominado como artificial cheerfulness: una internet que sonríe siempre, que nunca se queja, que suaviza los bordes ásperos de la realidad. Útil para el marketing y las ventas, pero contraria por definición para el periodismo, la crítica cultural o el debate político.

La amenaza del bucle autofágico

Spennemann introduce en su estudio un concepto que debería preocupar a cualquiera que trabaje con datos o entrene modelos de lenguaje (e incluso a la sociedad en su conjunto): el bucle autofágico. La dinámica es sencilla de entender y difícil de revertir: si los modelos de IA se entrenan con datos de internet y un tercio de esos datos ya fueron producidos por IA, el siguiente modelo se entrena, en parte, sobre la salida de su predecesor. Y el siguiente, sobre la de ese.

¿Recuerdan los más veteranos del lugar lo que ocurría cuando una fotocopiadora copiaba sus propias copias? Cada generación perdía resolución, matiz, color...

Una degradación lenta, casi imperceptible en cada paso, pero acumulativa. Cada iteración amplifica los patrones existentes y erosiona la diversidad que debería nutrir al sistema.