Imagen creada con IA que muestra a un usuario resolviendo un reCAPTCHA en un portátil.

Imagen creada con IA que muestra a un usuario resolviendo un reCAPTCHA en un portátil. I.M. / Gemini Omicrono

Tecnología

Google te ha engañado para que entrenes a su IA sin que lo sepas: así usa el CAPTCHA más allá de los fraudes online

La compañía lleva 20 años aprovechando una prueba de seguridad obligatoria para obtener miles de millones de imágenes etiquetadas sin pagar.

Más información: Polymarket está convirtiendo la geopolítica en un casino: Irán, Venezuela y las apuestas online con información privilegiada

Publicada
Actualizada

La gran bola de nieve de la IA sigue aumentando cada día, a pesar de las incógnitas y desafíos que siguen rodeando a esta tecnología. Su 'inteligencia' tiene poco de artificial, ya que sus modelos llevan aprendiendo de miles de millones de nosotros desde hace décadas, aunque rara vez seamos conscientes de ello.

Uno de los mejores ejemplos son los juegos de realidad aumentada como Pokémon Go. Este inofensivo pasatiempo ha servido para cartografiar el mundo real con una precisión que ninguna empresa habría podido costear por sí sola: millones de jugadores verificaron la ubicación de puntos de interés físicos, que ahora están siendo utilizados para guiar a robots de reparto, con otros usos potenciales mucho más siniestros.

Los robots aspiradores también generan mapas detallados, pero en su caso del interior de los hogares, datos que pueden utilizarse para mejorar sus modelos de navegación autónoma... y afinar al máximo la publicidad personalizada. En todos estos casos, el patrón es el mismo: el usuario obtiene un servicio aparentemente gratuito y la empresa consigue datos de un valor incalculable.

Pocos ejemplos ilustran este fenómeno mejor que los sistemas de identificación CAPTCHA y reCAPTCHA que llevan usándose desde principios de los 2000 en Internet para distinguir a los humanos de los bots, programas capaces de ejecutar tareas automatizadas en la red simulando o suplantando el comportamiento de cualquiera de nosotros.

Aunque la función original de CAPTCHA era acabar con el spam e identificar posibles fraudes, Google adquirió la tecnología y ha aprovechado esas verificaciones, desde identificar texto distorsionado hasta señalar semáforos en varias imágenes, para entrenar sus modelos de IA. Incluso se sospecha que esos datos han sido usados por Waymo, su empresa de coches autónomos que ya opera en varias ciudades de EEUU y está preparando su desembarco en Europa.

El problema del spam

A finales de los años 90, el auge de los bots de spam representaba una amenaza creciente para internet. Los foros se llenaban de publicidad automatizada y los formularios eran especialmente vulnerables a registros masivos de máquinas que se hacían pasar por usuarios humanos.

En 2003, el informático y empresario guatemalteco Luis von Ahn, junto a un equipo de la Universidad Carnegie Mellon, publicó un estudio científico en el que proponía una solución: CAPTCHA, una prueba de verificación basada en texto distorsionado que los humanos podían resolver pero las máquinas no.

Diversos sistemas de CAPTCHA y reCAPTCHA

Diversos sistemas de CAPTCHA y reCAPTCHA Google Omicrono

Luis von Ahn, que posteriormente fundaría Duolingo, quiso ir un paso más allá. Si millones de personas iban a resolver estos desafíos para poder navegar por Internet, ¿por qué no hacer que ese esfuerzo sirviera para algo más?

En 2007, él y su equipo lanzaron reCAPTCHA que, en lugar de mostrar caracteres sin sentido, presentaba dos palabras: una conocida por el sistema, para verificar al usuario, y otra extraída de un libro físico escaneado que el software de reconocimiento óptico de caracteres (OCR) no había podido interpretar correctamente.

La respuesta del usuario contribuía, sin que él lo supiera, a la digitalización masiva de esos textos, una tarea que iba a tener un impacto mucho mayor. El proyecto colaboró con los archivos del periódico The New York Times y con Google Books, iniciativa que aspiraba a catalogar los 170 millones de libros que existen en el mundo.

En 2009, Google adquirió reCAPTCHA e integró el sistema en su infraestructura, con la idea de aprovechar esa ingente cantidad de datos para usos mucho más ambiciosos que combatir el spam preguntándote "¿eres un robot?".

Con la expansión de Google Street View, la función de Google Maps que ofrece vistas panorámicas a nivel de calle, la empresa disponía de imágenes de carreteras de todo el mundo, pero esos archivos fotográficos eran datos en bruto. Y, para que los modelos de visión artificial pudieran interpretarlos, necesitaban etiquetas: qué píxeles corresponden a un semáforo, a un paso de peatones, a una bicicleta o a un camión.

La solución llegó en 2014 con una nueva versión de reCAPTCHA, conocida como v2. En lugar de texto distorsionado o palabras, el sistema mostraba una cuadrícula de imágenes procedentes de Street View y pedía al usuario que identificara elementos visuales muy concretos.

Cada clic generaba una etiqueta que alimentaba directamente los modelos de reconocimiento de imágenes de Google. La escala fue enorme: el sistema procesaba más de 100 millones de verificaciones diarias en su momento de mayor actividad, con desafíos divididos en doce categorías visuales distintas, lo que implicó el etiquetado acumulado de miles de millones de fragmentos de imagen a lo largo de varios años.

Si cada desafío implicaba unos diez segundos, y no siempre se acertaba a la primera, el resultado equivaldría a unas 278.000 horas de trabajo humano al día, según esos datos.

El sistema de verificación reCAPTCHA v3

En 2018 Google lanzó reCAPTCHA v3, que elimina cualquier desafío visible y opera completamente en segundo plano. Su funcionamiento pasa desapercibido, ya que analiza el comportamiento del usuario, como los movimientos del ratón la velocidad de escritura o los patrones de navegación, junto a la huella técnica del dispositivo y el historial de sesiones de Google.

Con todos esos datos, el sistema genera en cuestión de milisegundos una puntuación de entre 0 y 1, que indica la probabilidad de que el visitante sea humano. El sitio web recibe esa puntuación y decide si permite el acceso directamente o activa una verificación adicional, sin que el usuario sea consciente en ningún momento de haber sido evaluado

Google Maps... ¿y Waymo?

Los datos visuales etiquetados a través de reCAPTCHA contribuyeron decisivamente al desarrollo de Google Maps que, con más de 2.000 millones de usuarios mensuales y una cuota de mercado cercana al 70%, es la herramienta de navegación dominante a escala global y supone unos ingresos para la compañía

Un reciente artículo que se ha viralizado en X, antes Twitter, también asegura que todos esos datos han sido decisivos para el entrenamiento de la IA que está detrás de los coches autónomos de Waymo, también propiedad de Google a través de su empresa matriz, Alphabet.

Sin embargo, no existe confirmación oficial de que Google o su subsidiaria hayan usado datos de reCAPTCHA para entrenar específicamente los sistemas de Waymo.

Un coche de Waymo circulando por autopista

Un coche de Waymo circulando por autopista Waymo Omicrono

De momento, lo único que han admitido desde la compañía, ante las preguntas de la revista Ceros, es que "usa muchos métodos distintos" para etiquetar imágenes y entrenar a sus modelos de IA, sin precisar.

Michael Cutter, doctor en ingeniería informática y director de visión artificial en la startup Tortuga, reveló sus sospechas en ese mismo reportaje: "no podría imaginar desperdiciar ese esfuerzo humano; los datos de entrenamiento son demasiado valiosos".

La principal hipótesis de Cutter es que Waymo está empleando reCAPTCHA como sistema de verificación, para contrastar que sus sistemas de clasificación automática coinciden con el criterio humano, no como fuente principal de entrenamiento.

En cualquier caso, lo que ponen de manifiesto este y otros ejemplos recientes, como las subcontratas de OpenAI o Meta en países del tercer mundo para entrenar a sus IAs y etiquetar contenido, es que detrás de la revolución de la inteligencia artificial se 'esconden' tareas humanas que siguen añadiendo capas a la gigantesca bola de nieve que puede acabar aplastándonos a todos.