J. Arnau
Publicada

Quizá sería conveniente empezar explicando de la manera más simple posible la diferencia entre las redes neuronales, los modelos de lenguaje (LLM, por sus siglas en inglés) y los corpus de datos. La primera herramienta permite aplicar IA de forma directa; la segunda, convivir con ella, razonar con ella; y la tercera, nutrirla de cuanta más información mejor para que nos sea más útil.

Dicho de otra manera, cuanto mejor sea el corpus, mejores LLM se van a poder desarrollar y mejor IA se va a poder aplicar. Y para rizar el rizo, una pregunta: ¿qué sentido tenía haber presentado un proyecto de traductor automático y un proyecto de LLM sin haber creado primero una base de datos lingüística lo más completa posible que mejorara las prestaciones de esas dos iniciativas?

En algún momento de los últimos meses se ha tenido que hacer esa pregunta el Gobierno Vasco. Tras haber presentado primero Itzuli -el traductor inteligente- y Latxa -el LLM-, hace unos días anunció Euskorpus.

El objetivo de las tres herramientas es el mismo: que el euskera gane protagonismo en el ámbito digital; es decir, que al generar contenido, al dialogar con ella o al analizar documentos, la inteligencia artificial domine este idioma minoritario en el mundo como domina el más utilizado en tecnología: el inglés.

Más allá de que llame la atención que el corpus haya sido el tercer anuncio y no el primero, lo importante es que el ejecutivo vasco ha decidido dar el impulso definitivo al citado objetivo idiomático.

El Consejo de Gobierno aprobó la concesión de una subvención directa por un importe máximo de cinco millones de euros a la asociación Euskorpora, en el marco del proyecto estratégico Euskorpus.

Esta aportación, gestionada por los departamentos de Industria, Transición Energética y Sostenibilidad y de Cultura y Política Lingüística, refuerza, pues, el compromiso del ejecutivo vasco con la innovación, el desarrollo tecnológico y la presencia activa del euskera en el entorno digital.

En esta iniciativa también participa activamente el departamento de Ciencia, Universidades e Innovación, impulsando y desarrollando la investigación en lenguaje tecnológico.

El proyecto Euskorpus es una iniciativa público-privada liderada por Euskorpora, asociación sin ánimo de lucro constituida en enero de 2024 para gestionar y desarrollar datos lingüísticos en euskera aplicables a tecnologías digitales.

Su objetivo principal es garantizar el futuro del euskera en una sociedad cada vez más digitalizada, mediante la creación metódica de un corpus digital de textos en euskera y el desarrollo de modelos de inteligencia artificial de código abierto.

"Las lenguas que no pueden acceder a la rápida evolución de las tecnologías digitales en igualdad de condiciones con los idiomas mayoritarios corren un serio peligro de enfrentarse a una extinción digital", explican desde el Gobierno Vasco.

Por ello, "el euskera debe ser una herramienta clave para el desarrollo, en un escenario digital y globalizado, por lo que hay que contribuir a la creación de ese corpus digital en euskera, que contribuya a su conservación, mantenimiento y a la generación de impacto tanto en el tejido industrial como social, conectado al marco europeo de recursos".

Partiendo de unas necesidades estratégicas, Euskorpora trabajará para identificar las soluciones o aplicaciones basadas en tecnologías del habla y lenguaje en euskera demandadas por los distintos sectores (Justicia, Educación, Salud, e-Administración, Seguridad, Alimentación, Industria Inteligente, Sociedad, etc.).

10 millones en dos años

Con esta inversión, que será inicialmente de cinco millones de euros y que en 2027 habrá llegado a los 10 millones- el Gobierno Vasco busca fomentar la industria tecnológica en euskera, impulsando la innovación y la competitividad en sectores estratégicos vinculados a las tecnologías del lenguaje.

El proyecto Euskorpus se desarrollará en tres fases. La primera será la de planificación y definición, con la puesta en marcha de la oficina técnica, definición del tipo de corpus y sectores estratégicos.

La segunda fase consistirá en la recopilación de corpus lingüísticos, desarrollo de modelos base en código abierto y creación de infraestructuras tecnológicas. Por último, se procederá a la transferencia y explotación, con la integración de los corpus y modelos en el mercado digital, facilitando su uso por empresas, instituciones y ciudadanía.

Esta estrategia responde a una necesidad detectada en el Marco Estratégico AROA del Gobierno Vasco, que advierte sobre el riesgo para lenguas minorizadas como el euskera si no se actúa decididamente en el ámbito tecnológico. El proyecto Euskorpus es, en este sentido, una herramienta clave para asegurar la igualdad lingüística en el acceso a la inteligencia artificial y al entorno digital.

Con esta iniciativa, el Gobierno Vasco consolida su compromiso con la diversidad cultural y lingüística, alineándose con los objetivos de la Carta Europea de las Lenguas Regionales o Minoritarias y contribuyendo al fortalecimiento del euskera como patrimonio cultural inmaterial.

Cabe recordar que, por su parte, el proyecto Itzula -el traductor inteligente para euskera, español, inglés y francés- fue desarrollado por el propio Gobierno Vasco. El ejecutivo regional también colaboró en el proyecto Latxa, a través de la Universidad del País Vasco.