Entrenando al algoritmo

Varios miles de autores de todo tipo, desde artistas gráficos hasta escritores, han firmado una carta reclamando a las compañías tecnológicas como OpenAI, Google, Meta y otras que dejen de utilizar su trabajo para entrenar a sus algoritmos generativos sin permiso o compensación.

En la raíz de esa carta, y de varias demandas judiciales más planteadas por otros autores y por diversas compañías como Getty Images, están conceptos muy complejos que abarcan desde la propiedad intelectual hasta la capacidad tecnológica, que sin duda se van a ver sometidos a una fuerte revisión.

Tenemos que partir de una base fundamental: la propiedad intelectual, hasta el momento, solo es aplicable a las personas. Esa cuestión, que parece una obviedad, no lo es tanto. Aquel impresionante selfie que se hizo viral hace algunos años capturado por un mono tras robar la cámara de un fotógrafo, no pudo recibir ningún tipo de protección como propiedad intelectual de nadie —ni siquiera del fotógrafo— debido a que el autor del disparo era un mono, no un humano. La fotografía, por tanto, resultó ser de dominio público y por tanto de uso totalmente libre, exenta de ningún tipo de protección.

Según ese principio, y dado que una máquina no es un ser humano, podríamos deducir que ocurre lo mismo con cualquier creación de un algoritmo: dado que no ha sido generada por un ser humano, carece de protección referente a la propiedad intelectual.

Sin embargo, podría argumentarse que, en realidad, el algoritmo es una herramienta que está siendo utilizada por un ser humano que la activa mediante el llamado prompt, que los resultados difieren en función de ese prompt, y que, por tanto, no es muy distinto de lo que sería utilizar una pluma, una máquina de escribir o un procesador de textos. ¿Se atrevería alguien a decirme que mis artículos no merecen propiedad intelectual porque los he generado mediante un procesador de textos?

La propiedad intelectual, hasta el momento, solo es aplicable a las personas

Pero más allá de la autoría, surge una cuestión adicional más compleja, referente a los trabajos que se encuentran disponibles públicamente: en principio, es perfectamente legal llevar a cabo el llamado web scraping, es decir, llegar a una página web disponible en abierto y hacer una copia de todo lo que contiene. El equivalente es lo que ocurre, por ejemplo, con los cuadros exhibidos en un museo: cualquiera puede pasearse por el museo, almacenar los cuadros en su memoria o hacerles fotografías, y posteriormente, inspirarse en ellos para crear obras similares en función de lo que sus habilidades artísticas le permitan.

Sin embargo, que el web scraping sea legal y que LinkedIn, por ejemplo, no pueda protestar cuando otros actores extraen masivamente información de su red, no implica que esto se pueda llevar al extremo: LinkedIn, efectivamente, ha perdido las demandas en las que intentaba protegerse del web scraping, pero Clearview, que tomó millones de imágenes de páginas web y redes sociales para crear un algoritmo de reconocimiento facial, ha sido declarada culpable por abusar de ese mismo procedimiento.

Getty Images es un caso interesante: el repositorio de imágenes permite que sus colecciones puedan verse libremente y las acompaña, además, de una serie de palabras clave, un paraíso para los algoritmos. Lo único que hace para protegerse es utilizar una marca de agua: si quieres eliminarla, debes pagar para acceder a la imagen. ¿Qué ocurrió? Que algunos algoritmos generativos como Stable Diffusion han hecho tanto uso de las imágenes de Getty, que algunas de las imágenes que generan llevan “algo parecido” a la marca de agua de las imágenes de Getty. El algoritmo, simplemente, piensa que la marca de agua es un elemento del concepto definido. Lógicamente, la compañía ha denunciado, y el caso está todavía en deliberación.

Los algoritmos bien entrenados pueden servir para muchas cosas, y eventualmente, conseguir que las máquinas puedan llevar a cabo numerosas tareas que hoy realiza un ser humano. Si no sabemos plantearlo, esto significará un infierno de protestas de desempleados y desequilibrios sociales, pero si supiésemos hacerlo bien, representaría una sociedad ideal en la que las personas descansan o hacen básicamente aquello que les apetece, mientras las máquinas producen.

Los algoritmos bien entrenados pueden servir para muchas cosas

Sin embargo, la forma de llegar a ese punto es complicada, y si no que se lo digan a artistas con un estilo muy identificable o a escritores cuyos libros son ingeridos por un algoritmo en fracciones de segundo: te encuentras ante obras, imágenes o textos, que perfectamente podrías haber pintado o escrito tú, que tienen todos los elementos que te caracterizan… pero que no recuerdas haber hecho tú, porque realmente no lo has hecho. Lo ha hecho un algoritmo entrenado con tus obras.

La pretensión de Hollywood de pagar a los actores sus días de trabajo por entrenar a un algoritmo para que, posteriormente, los productores pudiesen utilizar esos alter egos sintéticos en cualquier película ha dado lugar a una huelga muy similar a la de los guionistas, que veían como sus guiones alimentaban a algoritmos que podían producir otros similares que no daban lugar a compensación alguna. Cuando se tensa mucho, el hilo se rompe.

Un claro abuso plasmado en forma de términos de servicio que facultaban a las compañías para no respetar la privacidad de sus usuarios dio origen a algunas de las empresas más grandes del momento. Ese error no lo hemos corregido hasta hace pocos días, cuando el Tribunal de Justicia de la Unión Europea ha dicho que esas cláusulas eran abusivas y nulas de pleno derecho. Ahora, otras cláusulas similares podrían, si no lo impedimos, dar origen a las empresas más grandes del futuro, que podrían ser las mismas o no. ¿Vamos a saber reaccionar a tiempo en esta ocasión?

***Enrique Dans es Profesor de Innovación en IE University.