Equipo del CENIA trabajando en el desarrollo de Latam-GPT.

Equipo del CENIA trabajando en el desarrollo de Latam-GPT. CENIA

Chile

Latam GPT, la IA hecha por y para Latinoamérica para que la región tenga voz propia en el mapa global de la innovación

Su propósito es "crear un modelo que incluya la comprensión de diferentes dialectos, la historia local y aspectos culturales que otros no capturan”.

Más información: México desarrollará su propio lenguaje de inteligencia artificial.

Mar Carpena Garcia
Publicada

Calificado en su presentación en 2023 por el presidente chileno Gabriel Boric como “un hito de soberanía tecnológica para la región”, el sistema de inteligencia artificial (IA) Latam GPT está cada día más cerca de convertirse en realidad.

Un sistema de IA hecho por y para Latinoamérica que surge de la colaboración de Chile y Brasil que busca posicionar a la región en el mapa de la innovación global pero sobre todo con una voz propia en el de la inteligencia artificial.

Y es que frente a modelos como ChatGPT o Gemini, nutridos de datos principalmente anglosajones, Latam-GPT quiere diferenciarse, alimentándose de datos representativos de América Latina: documentos, archivos históricos, literatura, datos académicos y culturales.

Liderado por el Centro Nacional de Inteligencia Artificial en Chile (CENIA), en alianza con Brasil y con la colaboración de más de treinta instituciones de toda América Latina y el Caribe, Latam-GPT “está explícitamente diseñado para y por América Latina y el Caribe.

Su propósito es "crear un modelo de Inteligencia Artificial que sea consciente de los matices culturales de la región, lo que incluye la comprensión de diferentes dialectos, la historia local y aspectos culturales únicos que otros modelos no capturan”, nos explican desde el CENIA, con quien DISRUPTORES ha tenido la oportunidad de hablar.

Como señalan, se decidió lanzar una versión propia “porque los modelos de lenguaje masivos existentes, aunque potentes, están enfocados en las necesidades de otras partes del mundo y carecen de un conocimiento profundo de la realidad latinoamericana”.

Así, entre las motivaciones que explican esta decisión, encontramos además de que las herramientas de IA utilicen ejemplos y referencias propias de la historia y cultura de la región, en lugar de figuras ajenas al contexto local, que “otras instituciones puedan adaptar el modelo para sectores específicos como la educación, la salud, la agricultura o la cultura, generando soluciones a la medida de los desafíos regionales” así como proporcionar a los investigadores latinoamericanos “una herramienta fundamental para experimentar, interactuar a fondo con estos modelos y avanzar en el conocimiento científico, algo que hasta ahora era limitado por la falta de acceso a esta tecnología”, detallan desde el CENIA.

sin título-3

sin título-3

Lenguas originarias de Latinoamérica

Latam-GPT es capaz de procesar español, portugués, inglés y también lenguas originarias como mapudungún y rapanui. “Uno de los problemas que tenemos en Latinoamérica y el Caribe es que los LLM que usamos, si bien funcionan en español y portugués, son bastante limitados en el conocimiento que tienen sobre la región. Al poco andar comienzan a alucinar, porque muy pocos de los datos con los que estos modelos fueron entrenados son de esta parte del mundo", ha afirmado Álvaro Soto, director de CENIA.

"Es importante que en la región podamos desarrollar capacidades para tener cierta independencia y tomar decisiones de cómo esta tecnología impacta a la sociedad. Hasta el momento no tenemos un modelo de lenguaje regional, y esta tarea no la puede asumir solo un grupo ni un solo país: es un desafío que requiere el esfuerzo de toda la región”, añadía.

En definitiva, con Latam-GPT el objetivo es “alcanzar la soberanía e independencia tecnológica en el campo de la Inteligencia Artificial para la región” que podrá “ofrecer respuestas más ajustadas al entorno social, político y cultural latinoamericano”.

Un equipo plural

Con la coordinación de CENIA, en estrecha colaboración con  Data Observatory y Amazon Web Services (AWS), tras Latam-GPT hay un equipo involucrado de 50 instituciones de 13 países.

En concreto, colaboran especialistas de Chile, Uruguay, Colombia, México, Perú, Ecuador, España, Estados Unidos, Argentina, y Costa Rica a través de instituciones como las mexicanas Centro de Investigación en Ciencias de Información Geoespacial o el Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación, la chilena Academia de la Lengua, la Universidad Nacional de Córdoba, en Argentina o la peruana Universidad Científica del Sur.

“El proyecto integra capacidades técnicas, infraestructura y equipos de ingeniería de las instituciones participantes para construir un gran modelo de lenguaje abierto de alcance regional, con datos y casos de uso latinoamericanos. El trabajo está estructurado en cuatro equipos especializados con funciones claras: Datos, el responsable de recopilar grandes volúmenes de texto de diferentes temas y países de Latinoamérica; Pre-entrenamiento, enfocado en el proceso para que el modelo aprenda la estructura, el significado del lenguaje y el contexto sociocultural de la región; y Post-entrenamiento, encargado de ajustar el comportamiento del modelo para que desarrolle capacidades conversacionales alineadas con el contexto cultural latinoamericano y completa este entramado el equipo de Ética, responsable de documentar la revisión ética del proyecto, así como de articular estándares de seguridad, cumplimiento y auditorías.

Aunque como nos aclaran desde el CENIA, el volumen de datos con los que se está entrenando a Latam-GPT se actualiza diariamente, a día de hoy podemos decir que el modelo se está entrenando con “un total estimado de 4.5 billones de tokens de datos brutos, una cifra que continúa en aumento”. Lo que conforma el corpus total supera los ocho terabytes de texto, compilando 2.645.500 documentos de 20 países, apuntan.

Toda esta información es “procesada” en la Universidad de Tarapacá (UTA) en su Centro de Supercómputo, un clúster con 12 nodos, cada uno con 8 GPUs NVIDIA H200 que posibilita el entrenamiento del modelo a gran escala promoviendo además la descentralización y eficiencia energética.

Un modelo que se espera vea la luz en las próximas semanas y que nace como “una iniciativa de código abierto, gratuita y colaborativa. Esto permitirá que cualquier persona, desde investigadores hasta startups o gobiernos, pueda utilizar y adaptar la tecnología para desarrollar nuevas aplicaciones y soluciones”.