Fotomontaje con el logo de Wikipedia.

Fotomontaje con el logo de Wikipedia. Manuel Fernández Omicrono

Software

La respuesta de Wikipedia a Musk: una base de datos optimizada con IA para facilitar el acceso a modelos grandes

La idea es equilibrar las posibilidades y recursos de los laboratorios de inteligencia artificial más modestos respecto a los más grandes, como OpenAI.

Más información: La batalla por el copyright está servida: colectivos de artistas avanzan contra Midjourney y otras IAs generativas

Publicada

La relación entre Internet y los usuarios está cambiando de la mano de la inteligencia artificial. Una tecnología que ya ha protagonizado casos de tensión entre los creadores de contenido y las grandes empresas que entrenan sus modelos con estos datos.

Tras un órdago por parte de Elon Musk para enfrentarse a la Wikipedia con su alternativa, la Grokipedia, los responsables de la mayor enciclopedia online del mundo han anunciado una nueva base de datos para hacer más accesibles la información de Wikipedia para los modelos de inteligencia artificial.

La idea detrás del proyecto es establecer una mayor igualdad entre los desarrolladores y laboratorios encargados de entrenar sus modelos de inteligencia artificial y que están fuera de los entornos de primer nivel, bajo el paraguas de grandes como OpenAI o Anthropic.

La nueva base de datos de Wikipedia

Wikimedia Alemania, la entidad que supervisa la división Wikidata de Wikimedia ha anunciado el Proyecto de Integración de Wikidata, una nueva base de datos optimizada específicamente para modelos de inteligencia artificial.

Esta base de datos facilita la capacidad de los modelos lingüísticos de IA de asimilar información. Tal y como relata TechCrunch, Wikimedia Alemania ha conseguido convertir 30 millones de entradas de Wikiedata llenos de datos en bruto en vectores que capturan el contexto y el significado de cada entrada.

Logo de la Wikipedia.

Logo de la Wikipedia. Manuel Fernández Omicrono

El sistema, también conocido como Wikidata Embedding Project, aplica un sistema de búsqueda semántica basada en vectores, que permite que los modelos de IA comprendan tanto el contexto como el significado de los datos tratados.

Esencialmente, los modelos podrán aprovechar estos vectores para comprender las relaciones entre las palabras y su significado, facilitando que estos asimilen la información de cara a su entrenamiento con información verificada de Wikipedia.

Es importante aclarar que respecto al usuario, Wikipedia no cambiará en absoluto. De hecho, desde Wikidata se ha hecho especial hincapié en que Wikipedia no se ha vuelto una IA ni un chatbot similar a ChatGPT.

Será en el backend de Wikipedia donde cambiarán las cosas, ya que este será más accesible para los laboratorios y desarrolladores de inteligencia artificial cuando creen sus herramientas usando los datos almacenados en esta base.

Wikipedia

Wikipedia

El equipo se valió de un modelo propiedad de la firma de IA Jina AI para convertir datos estructurados de Wikidata que comprenden hasta el 18 de septiembre de 2024 en vectores. DataStax se encargará de la infraestructura para almacenar esta base de datos vectorial.

Al sistema de búsqueda semántica basada en vectores se le sumará un nuevo soporte para el Protocolo de Contexto de Modelo (MCP), un estándar para facilitar que los sistemas de IA se comuniquen con fuentes de datos.

Así, la base de datos hará que estos sean más accesibles a las consultas en lenguaje natural. Y es que si bien es cierto que Wikidata ya ofrecía datos legibles a estos modelos, no lo hacía con la búsqueda semántica.

Las herramientas actuales de búsqueda permitían búsquedas por palabras clave y consultas SPARQL, un lenguaje de consulta especializado para bases de datos RDF (Resource Description Framework) que permite a los desarrolladores y profesionales realizar búsquedas complejas en datos representados como grafos.

Aplicación de la Wikipedia en un iPhone

Aplicación de la Wikipedia en un iPhone Adrián Raya Omicrono

El nuevo sistema, dicen desde TechCrunch, tendrá un mejor rendimiento con sistemas de recuperación-generación aumentada (RAG). Estos suponen un marco de IA que combina un modelo de recuperación (para buscar información en bases de conocimiento externas) con un modelo de generación (como un LLM, para crear respuestas).

Dichos sistemas permiten a los modelos extraer información externa a ellos, dando la oportunidad a los desarrolladores y laboratorios de basar los modelos LLM en los que están trabajando en conocimiento ya verificado por editores de Wikipedia.

Con todo ello, desde Wikidata prometen que estos datos estarán estructurados para proporcionar a los modelos un contexto semántico vital para su entrenamiento. Datos que se podrán acceder de forma pública, ya que la base estará disponible en Toolforge.

Desde Wikidata esperan que la base de datos permita que los sistemas de inteligencia artificial modernos y más sofisticados puedan reflejar mejor ciertos temas que de otra forma, no gozarían con tanta representación en Internet.

Representación de la inteligencia artificial

Representación de la inteligencia artificial mikemacmarketing vía Wikimedia

A medida que la precisión y sofisticación de los modelos de IA va en aumento, se necesitan más fuentes de datos con información de mejor calidad para perfeccionarnos. Esto ha llevado a que se refinen drásticamente los sistemas de entrenamiento.

Estas ideas van ligadas sobre todo a la posición de poder que poseen firmas como OpenAI o Anthropic, que cuentan con muchos más recursos que laboratorios de IA más modestos para, por ejemplo, vectorizar Wikidata mediante estas implementaciones.

Es tal la presión sobre los desarrolladores para conseguir datos de calidad con los que entrenar a estos modelos que estas entidades de menor nivel no pueden hacer frente a la competencia. Son los peces más pequeños los más beneficiados por esta iniciativa.

De ahí la intención del proyecto, que busca crear unas condiciones más equitativas para los desarrolladores que no están bajo el paraguas de las esferas más importantes ubicadas en la carrera por la inteligencia artificial general (AGI).

ChatGPT en un montaje fotográfico.

ChatGPT en un montaje fotográfico. Reuters Reuters

Gracias a estas medidas, las empresas de IA más pequeñas podrán acceder de forma más fácil a los datos seleccionados en las bases de datos optimizadas para modelos de IA.

Esta filosofía queda patente en las palabras de la autora y responsable de porfolio de Wikidata Lydia Pintscher en The Verge. "En realidad, para mí, se trata de darles esa ventaja y, al menos, darles una oportunidad, ¿no?".