El logo de Meta.

El logo de Meta. Reuters Omicrono

Software

Demuestran que la IA no respeta el Copyright: ya se preparan leyes para hacer transparentes los modelos

Un proyecto de ley de Nueva York busca que la IA sea más transparente para evitar riesgos e infracciones como la descubierta con la IA de Meta.

Más información: Meta se queda sin su centro de datos para IA alimentado con energía nuclear: la culpa es de una especie protegida de abejas

Publicada
Actualizada

Son muchos los riesgos que presenta el desarrollo actual de la inteligencia artificial en todo el mundo y que leyes como la europea tratan de mitigar. Entre ellos está la infracción de leyes como el copyright que puede suponer grandes pérdidas de dinero. Al mismo tiempo que surgen nuevas evidencias de estas infracciones, se están elaborando leyes para obligar a los desarrolladores de IA a ser más transparentes con su tecnología.

No es la primera vez que la inteligencia artificial de Meta es acusada de infringir los derechos de autor. Un grupo de autores señalaba a principios de año Mark Zuckerberg habría aprobado a la empresa usar versiones pirateadas de libros protegidos por derechos de autor. Ahora un nuevo estudio desvela el resultado de este entrenamiento.

Según esto, el modelo Llama 3 ha memorizado casi la mitad del primer libro de Harry Potter y puede reproducir fragmentos con gran precisión. Ante casos como este, surgen leyes como la que se ha aprobado recientemente en Nueva York para que la IA provoque grandes pérdidas económicas o incluso muertes por falta de transparencia y control.

Los derechos de autor en riesgo

El mes pasado, un equipo de informáticos y juristas de varias universidades (Stanford, Cornell y Virginia Occidental) estudió la capacidad de cinco modelos populares de reproducir textos protegidos por derechos de autor de la plataforma Books 3, una colección utilizada por estudiantes de derecho. Se analizaron tres modelos de Meta, uno de Microsoft y uno de EleutherAI.

Los resultados demostraron que Llama 3 podía reproducir libros tan populares como El Hobbit, 1984 de George Orwell o Harry Potter. En concreto, el artículo estima que Llama 3.1 70B ha memorizado el 42 % del primer libro de Harry Potter con la suficiente precisión como para reproducir fragmentos de 50 fichas al menos la mitad de las veces.

Mark Zuckerberg, CEO de Meta.

Mark Zuckerberg, CEO de Meta. Reuters Omicrono

No está claro cómo ha ocurrido esto. Llama 3 70B se entrenó con 15 billones de tokens, más de 10 veces los 1,4 billones de tokens utilizados para entrenar a Llama 1 65B. Cuanto más se usa un ejemplo en el entrenamiento de una IA, más probabilidades hay de que el modelo lo memorice. El origen de esos fragmentos de libros puede proceder de foros de internet o reseñas del libro.

Denuncias previas e investigaciones han revelado el uso de obras protegidas por los derechos de autor en el entrenamiento de diferentes modelos de IA, como artículos periodísticos. Sin embargo, falta transparencia para conocer cómo están trabajando los grandes laboratorios de IA.

Mayor transparencia

El estado de Nueva York aprobó la semana pasada un proyecto de ley que tiene como objetivo evitar que los grandes modelos de inteligencia artificial provoquen desastres como la muerte o el daño de más de 100 personas o más de mil millones de dólares en daños. Se la conoce como ley RAISE (Responsible AI Safety and Education).

De aprobarse, el proyecto de ley establecería el primer conjunto de estándares de transparencia legalmente obligatorios en Estados Unidos para los laboratorios de IA de vanguardia. Exigiría a los laboratorios de AI más grandes a publicar informes exhaustivos sobre la seguridad de sus modelos más vanguardistas.

Los desarrolladores deberán someterse a auditorías periódicas de terceros; cumplir con los requisitos de transparencia; informar sobre los casos en que un sistema haya permitido incidentes peligrosos; conservar registros detallados de las pruebas durante cinco años; evitar la implementación de modelos "irrazonablemente" riesgosos (un término técnico legal); y proteger la protección de los denunciantes de irregularidades.

Estos nuevos requisitos de transparencia se aplican en todos los grandes laboratorios de IA, independientemente de su procedencia. Desde los californianos OpenAI y Google hasta los chinos DeepSeek o Alibaba.

El límite se ha marcado en aquellas empresas cuyos modelos, que están disponibles para los residentes de Nueva York, y se han entrenado con más de 100 millones de dólares en recursos informáticos. Según detalla Tech Crunch, sería un presupuesto superior al de los actuales modelos disponibles.

Si los gigantes tecnológicos incumplen estos estándares, la Ley RAISE permite al fiscal general de Nueva York imponer sanciones civiles de hasta 30 millones de dólares. Las sanciones comienzan en el 5 % de los costes de computación por una primera infracción y aumentan hasta el 15 % por las posteriores, por lo que las empresas podrían enfrentarse a multas de entre 5 y 15 millones de dólares.