Constantemente se pregonan las bondades de la IA, los avances que cada nuevo modelo consigue alcanzar y lo cerca que podría estar la esperada superinteligencia artificial, ese salto en el que las máquinas dejen en ridículo al cerebro humano. Pero esta tecnología aún tiene mucho que aprender, como leer el reloj que cada Nochevieja marca el comienzo de año desde la Puerta del Sol en España.
Investigadores de la Universidad Politécnica de Madrid han descubierto recientemente la dificultad que presentan los grandes modelos multimodales a la hora de leer la hora analógica. "En nuestras investigaciones tratamos de buscar tareas que aparentemente son muy sencillas para las personas, pero que para los modelos no son tan evidentes", indica en una entrevista con El Español-Omicrono, Javier Conde, profesor adjunto de la UPM.
Por su naturaleza probabilística, basada en el manejo del lenguaje, la inteligencia artificial generativa que utilizan la mayoría de chatbots como ChatGPT o Gemini, falla en tareas que para una persona incluso de corta edad serían sencillas, como contar el número de letras 'r' que tiene la palabra "guitarra".
Prueba realizada por El Español a Gemini
No son pocos los investigadores que dedican su tiempo a vigilar esa posible competencia entre el cerebro de los humanos y el de las máquinas. El planteamiento roza lo filosófico en muchos casos, aunque los constantes exámenes que se le hacen a esta tecnología bajan a tierra la comparativa en ciertos aspectos.
La IA ya supera a los humanos en muchos juegos de estrategia como el ajedrez, el Go, incluso en videojuegos de Atari. Por supuesto, el uso de esta tecnología para conducir coches es un buen ejemplo de sus capacidades para realizar tareas hasta ahora exclusivas de los humanos. No obstante, la ilusión de razonamiento y comprensión del mundo que ofrece la IA generativa, es solo eso, una ilusión.
"La inteligencia artificial, a pesar de que llevaba 50 años en desarrollo, no avanzaba tan rápido hasta 2022" recuerda Sergio de los Santos, líder en innovación en Telefónica Tech. Ese año Google presentó una nueva arquitectura de aprendizaje profundo, los transformadores, "le otorgó a los modelos un dominio del lenguaje que nadie esperaba, de la semántica y la sintaxis, y la razón por la que da esa ilusión de razonamiento", afirma este experto.
Pruebas tan sencillas como simples cálculos matemáticos han conseguido tirar por tierra esa ilusión de inteligencia. "El lenguaje matemático son símbolos que obedecen a una semántica y una síntesis que no han sido tan entrenados y requiere de un razonamiento diferente", explica De los Santos y añade: " es como pedirle a un Word que sume 2+2, pero eso lo hace un Excel".
Otro ejemplo de ello lo explica Bernardo Quintero, fundador de Virustotal, la empresa de ciberseguridad malagueña que Google adquirió hace más de una década, en un artículo. Si se le pide a la IA que piense en un número al azar, la respuesta más probable es 47. El modelo no ha pensado ese número sino reflejado estadísticamente la cifra que más veces se ha repetido en internet por una broma que se viralizó en la red de redes hace años.
No saben leer la hora
Los sesgos en los millones de parámetros con los que se han entrenado los modelos es parte del problema. Una rápida búsqueda por internet presenta la mayoría de relojes analógicos marcando la misma hora, por estética las manecillas suelen colocarse en las 10:10. El equipo de investigación de la UPM y sus colegas del Politécnico de Milán y la Universidad de Valladolid, publicaron el pasado 16 de octubre el IEEE Internet Computing un estudio que refleja la dificultad de los grandes modelos multimodales para leer la hora.
Crearon un extenso conjunto de datos con imágenes sintéticas de relojes analógicos, que mostraban más de 43.000 horas, pero los cuatro modelos que se pusieron a prueba no lograron indicar la hora con precisión.
La persistencia de la memoria
Después consiguieron mejorar el rendimiento reentrenando los modelos con 5.000 imágenes adicionales. "Le pasábamos ejemplos con la hora correcta, cuando reentrenas un modelo tú no sabes realmente cómo está aprendiendo, pero al darle nuevas horas veíamos que mejoraba en las respuestas", explica Conde. "Queríamos que el modelo infiriese cómo leer este tipo de relojes analógicos", aclara Miguel González, otro de los investigadores.
El siguiente paso fue incrementar la dificultad del examen. En la última fase del estudio el rendimiento de los modelos volvió a disminuir al enfrentarlos con imágenes nuevas en las que los relojes presentan ciertas deformaciones o alterando la apariencia de las manecillas, como sacados de la obra de Salvador Dalí.
"Cuando una persona aprende a leer la hora, aprende el concepto y lo identifica en cualquier contexto, pero si le dabas al modelo relojes deformados, cambiando la estructura de las manecillas, el modelo fallaba", asegura este investigador. Miguel González, añade "está bastante comprobado que para las nuevas generaciones no es tan sencillo leer un reloj analógico".
Los resultados muestran que los modelos de aprendizaje automático (MLLM) tienen dificultades para determinar la orientación espacial de las manecillas del reloj, especialmente cuando estas presentan una apariencia singular.
Suspenso en historia del arte
Otro de los trabajos de estos investigadores ponía a prueba las capacidades pictóricas de Stable Difussión pidiéndole al modelo que complete los fragmentos faltantes de célebres cuadros como La Mona Lisa. Los ejemplos publicados en el estudio presentan a una Gioconda con el rostro muy diferente al que pintó Leonardo Da Vinci.
Ejemplo de técnica inpainting con La Mona Lisa
"Los resultados muestran que, en algunos casos, el inpainting recursivo modifica la imagen de forma que conserva cierta semejanza con la original, mientras que en otros la degenera, resultando en una imagen sin sentido", explican en el estudio final.
Javier Conde señala que parte del problema en estos errores está en la propia arquitectura de los modelos. En este segundo estudio se presentan las deficiencias de la recursividad que hace referencia al entrenamiento de los nuevos modelos con contenido generado por IA que se ha subido a internet por el uso masivo de esta tecnología que se está haciendo actualmente en todo el mundo.
Explican los responsables del artículo de investigación que "esto puede provocar una degradación del rendimiento de los modelos de IA o incluso su colapso cuando se entrenan con datos producidos por ellos mismos". Aun así, cada errata que se encuentra en los modelos, se acaba corrigiendo.
Los modelos se corrigen
Estas investigaciones no tratan de minar la importancia del avance alcanzado en los últimos años por esta revolución tecnológica, cada error sirve para mejorar la IA y comprender un poco más su funcionamiento. "Yo auguro que en un par de meses probablemente la mayor parte de los modelos grandes sabrán leer relojes analógicos", asegura Miguel González.
Las generaciones de los modelos avanzan tan rápido que muchas veces cuando se publican estudios como estos, el fallo ya se ha corregido. En cuanto a las matemáticas, "como se ha ido entrenando leyendo un montón de matemáticas, la IA es capaz de inferir ciertos razonamientos", apunta Sergio de los Santos, aún así "sigue siendo muy mala multiplicando grandes números".
Al margen de estas pruebas, los nuevos modelos de lenguaje que se presentan pasan lo que se conoce como benchmarks, una serie de pruebas estandarizadas diseñadas para medir y comparar de manera objetiva el rendimiento de la IA en tareas específicas. "Lo que pueden hacer las empresas es coger esos test de evaluación y entrenar al modelo para que aprenda a responder esos test, pero la realidad es que cuando la gente los empieza a probar es donde se detectan los fallos", concluye Javier Conde.
