Hace un tiempo, saltaba una noticia en España bastante llamativa: la forma en la que las empresas entrenan sus inteligencias artificialesreuniendo en un mismo conjunto de datos cientos de miles de fuentes de Internet (en algunos casos, bastante cuestionables). Esto podría estar provocando que algunos servicios importantes, como The Internet Archive no esté funcionando como debería.

Internet Archive, tal y como detallan en su web, es una inmensa librería sin ánimo de lucro que registra el historial de Internet hasta la fecha. Es, como rezan en su nombre, un gigantesco archivo de la red de redes, con el historial de más de 800.000 millones de páginas. Hace poco sufrió una caída, y desde el perfil de Twitter de la web se afirmaba que el posible causante era una compañía de IA usando sus archivos para entrenamiento.

Y es que según apuntan desde Internet Archivela caída se debió a una oleada de tráfico "abusivo" de AWS, los servicios de computación en la nube de Amazon. Esta era la segunda oleada, aparentemente "de una empresa de inteligencia artificial que recolecta textos de Internet Archive a un ritmo extremo".

Problemas de IA (otra vez)

Todo comienza con una caída el 29 de mayo, lo que obliga a la web a avisar en Twitter sobre lo sucedido. "Esta es nuestra segunda ráfaga de tráfico abusivo de un cliente de AWS hoy, aparentemente de una empresa de inteligencia artificial que recolecta textos de Internet Archive a un ritmo extremo".

Tras esto, el fundador de The Internet Archive, Brewster Kahle, publicó una nota en Internet Archive sobre lo que acababa de suceder. "Se lanzaron decenas de miles de solicitudes por segundo para nuestros archivos OCR de dominio público desde 64 hosts virtuales en los servicios AWS de Amazon".

Esto, incluso para los estándares web, es muchísimo. Esto provocó que la actividad de archive.org cayera por completo durante una hora. Lo hicieron bloqueando las direcciones IP desde la que venían las solicitudes. No obstante, un par de horas después otras 64 direcciones iniciaron la misma actividad, y aunque descubrieron como bloquear este nuevo conjunto de solicitudes, provocó otra nueva caída.

Por el momento, The Internet Archive no ha confirmado que esto provenga de una empresa de inteligencia artificial. Sin embargo, este es el perfil que más encaja, porque otra alternativa sería un usuario de los AWS que, por algún motivo, requiriera grandísimas cantidades de información de la librería de The Internet Archive.

Una investigación del Washington Post reveló cómo ciertos conjuntos de datos usados para entrenar inteligencias artificiales, como es el caso del C4 de Google (también llamado Colossal Clean Crawled Corpus) reveló que usaba contenidos de más de 15 millones de sitios web. Se usó para entrenar a IAs como LlaMA de Meta, y en dicho conjunto había contenidos claramente problemáticos cuyo uso, en el menor de los casos, implicaba problemas de copyright.

A medida que los modelos de IA se van haciendo más grandes y necesitan mayores conjuntos de datos, posiblemente los servicios que otorgan librerías de información similares a The Internet Archive se vean afectados por el escalado en uso de estos sistemas.

También te puede interesar...