El logro de OpenAI con ChatGPT es supino al pasar de los 700 millones de usuarios semanales, y ahora ha sido capaz de arrojar un poco de luz sobre uno de los mayores misterios actuales, ¿por qué alucinan los modelos de IA?
Todos los que usamos ChatGPT, Claude o Gemini nos hemos encontrado con respuestas un poco extravagantes o en las que algún dato puede llegar a sonar hasta irrisorio.
Hay múltiples ejemplos en las redes sociales y hasta la IA es capaz de "compartir un PDF en el que se explica la cura del cáncer".
Si llevamos su capacidad de "alucinar" a experiencias diarias que tengan que controlar los dispositivos inteligentes en nuestra casa, como sucederá con Alexa en España, se puede convertir en un problema real si ha de elevar la temperatura de la habitación.
OpenAI desde su web ha explicado por qué los modelos de IA alucinan y la razón para el misterio se encuentra en que los modelos lingüísticos alucinan porque los procedimientos estándar de entrenamiento y evaluación recompensan la suposición en lugar del reconocimiento de la incertidumbre.
Lo que hace el modelo de IA es como enfrentarse a un test con múltiples respuestas en el que hemos de elegir una. Si no respondemos, se convierte en un cero, así que la IA pasa a jugar al azar para intentar responder y así dar, por mera casualidad, con la respuesta exacta.
No están entrenados a decir "no lo sé", que sería lo justo y adecuado, y los modelos que se miden solo por su capacidad para la precisión de sus respuestas se les entrena para que las adivinen.
SimpleQA eval
OpenAI pone un ejemplo de cómo la IA puede fallar estrepitosamente con el artículo de investigación que da pie a su publicación, y cuando se le preguntó por el título de la tesis doctoral de Adam Tauman Kalai (el autor de esta investigación), respondió con tres respuestas distintas, ninguna correcta.
Y sucedió lo mismo cuando se preguntó por su cumpleaños con tres respuestas distintas y las tres erróneas. Es justo otro de los ejemplos que pone OpenAI para entender mejor por qué alucina o da datos incorrectos: "Si se le pregunta por la fecha de cumpleaños de alguien, pero no la sabe, tiene una probabilidad de 1 entre 365 de acertar". Decir "no lo sé" garantiza cero puntos.
Las conclusiones de OpenAI
Tiene que ver con las pruebas a las que se enfrentan y en las que el modelo ha de responder a miles de preguntas: el modelo que adivina termina pareciendo mejor que uno cuidadoso que admite su incertidumbre.
OpenAI llega a una serie de conclusiones que desmienten mitos comunes sobre las alucinaciones: "La precisión nunca alcanzará el 100 %" debido a que algunas preguntas del mundo real son inherentemente imposibles de responder.
"Las alucinaciones son inevitables" es una afirmación falsa, ya que los modelos de lenguaje pueden abstenerse de responder cuando hay incertidumbre.
"Para evitar las alucinaciones se requiere un grado de inteligencia exclusivo de los modelos grandes": puede ser incluso más fácil para un modelo pequeño conocer sus propios límites.
"Las alucinaciones son un glitch (falso misterioso) en los modelos modernos de lenguaje" es falso. Surgen por los mecanismos estadísticos que son recompensados en las evaluaciones.
"Para medir las alucinaciones se necesita un buen test": ya han sido publicadas pruebas de este tipo, pero tiene poco efecto frente a cientos de evaluaciones centradas que priorizan la precisión sobre la humildad.
