Chatbot Chat con IA

Chatbot Chat con IA

Opinión

Modelos del mundo

José Manuel Rodríguez
Publicada

En los últimos años, los grandes modelos del lenguaje – LLMs (Large Language Models) – como GPT, LLaMA o Gemini han marcado importantes hitos como son la generación de texto, la programación o la resolución de problemas matemáticos.

Mientras grandes figuras en el mundo de la Inteligencia Artificial nos auguran la proximidad de la tan ansiada Inteligencia Artificial General (AGI por sus siglas en inglés), otras como Yann LeCun – científico jefe de IA en Meta – se muestran más escépticas y advierten de que será necesario un cambio de paradigma para alcanzar una inteligencia artificial verdaderamente comparable a la humana.

Los LLMs tienen varias carencias fundamentales:

  1. Falta de comprensión del mundo físico. Las respuestas de estos modelos se basan en patrones estadísticos sobre texto, no en experiencias como las que aprendemos las personas en el mundo real y sobre las que construimos nuestra comprensión del entorno en el que vivimos. Por ejemplo, no entienden fenómenos como la gravedad, ya que van más allá de correlaciones lingüísticas.

  2. Memoria no persistente. Cada conversación que mantenemos con un LLM tiene un principio y un final, pero el modelo no aprende de manera continua de esas interacciones. Una vez terminamos la conversación, olvidan lo aprendido y no acumulan esa experiencia para adaptarse a largo plazo. 

  3. Razonamiento limitado. Como hemos mencionado se basan en patrones estadísticos sobre texto, no en procesos deductivos reales. No son capaces de deducir por qué ocurre un fenómeno y dedican el mismo tiempo o “esfuerzo” computacional tanto a preguntas simples como a complejas. Aunque en este sentido ha habido avances como los LLMs razonadores. 

  4. Incapacidad para planificar jerárquicamente. Ante tareas complejas que requieren planificación y descomposición en subtareas, los LLMs no consiguen aproximar el resultado con una visión global del problema.

Además de estas limitaciones, existen otros dos obstáculos:

  1. Dependencia de datos textuales. Entrenar modelos requiere ingentes cantidades de texto de alta calidad. Hoy en día resulta difícil generar nueva información que realmente mejore sus capacidades. Además, los modelos solo “aprenden” palabras, mientras que los seres humanos incorporan múltiples sentidos: visión, tacto, sonido… Esa riqueza sensorial no puede reflejarse solo en el texto. 

  2. Alucinaciones. Los LLMs siguen fallando y generando en ocasiones información falsa. Para ellos, no existe una diferencia inherente entre información falsa generada e información verdadera.

Frente a estas carencias, LeCun y otros investigadores plantean un nuevo enfoque: los Modelos del Mundo (World Models). Se trata de sistemas capaces de construir representaciones del entorno real a partir de datos heterogéneos: texto, video, audio, imágenes y sensores físicos. Para que estos sistemas sean viables, es fundamental que incorporen capacidades como:

  • Comprensión de las dinámicas de físicas que rigen el mundo. Estos nuevos sistemas construirán una representación de su entorno físico y comprenderán conceptos como las leyes físicas que afectan al movimiento de los objetos y cómo estos interactúan entre sí.

  • Memoria persistente. Deberán mantener un estado interno que evoluciona tras cada interacción, permitiendo su actualización y un aprendizaje continuo.

  • Razonamiento causal. Serán capaces de construir y explicar relaciones causa y efecto, lo que les permite entender por qué un cambio en el entorno produce ciertos resultados.

  • Planificación. Podrán descomponer tareas complejas en tareas más sencillas y evaluar cada alternativa mediante simulaciones.

Estamos ante un desafío, ya que para construir estos sistemas necesitaremos de gran cantidad de datos multimodales: sensores, videos, audio y por supuesto texto. El coste computacional de inferencia de estos sistemas será mayor en comparación con los modelos de lenguaje actuales.

LeCun anticipa que en aproximadamente cinco años veremos los primeros World Models operativos, como sería JEPA, y en una década acercarnos a una AGI comparable a la humana.

¿Es este el camino que seguirá el campo de la Inteligencia Artificial? El tiempo lo dirá. Los modelos de lenguaje han abierto la vía revolucionaria sin precedentes en el campo de la Inteligencia Artificial, pero parece claro que la hoja de ruta pasa por este cambio de modelo y crear sistemas que permitan una comprensión del mundo más completa.

Mientras tanto, tenemos grandes herramientas construidas sobre los LLMs actuales que nos permiten ser más eficientes y ahorrar tiempo en nuestras tareas diarias.

*** José Manuel Rodríguez es profesor de Afi Global Education.