IA y lenguas cooficiales: parlamentos con diarios de sesiones automáticos o 'Alexas' gallegas y catalanas

Los proyectos AINA y ILENIA ponen en valor las lenguas cooficiales y las posicionan en el universo digital a través de varios casos de uso.

26 noviembre, 2023 01:45

Javier Arnau @Javarnau

Hace dos años surgió en Cataluña el proyecto AINA, una iniciativa de la Generalitat pilotada por el Barcelona Supercomputing Center (BSC-CNS) y encaminada a posicionar el idioma catalán en el universo digital.

Con un periodo de desarrollo de cinco años, esta iniciativa empieza a dar sus frutos en forma de casos de uso. Y, quizá lo más importante, el BSC-CNS ha incrementado su potencial al integrarlo dentro de ILENIA, un proyecto más ambicioso que, además del catalán, incluye el gallego, el euskera y el valenciano.

El contexto es prometedor. Según una investigación llevada a cabo por el Future of Humanity Institute, se prevé que la IA supere la inteligencia humana a la hora de traducir idiomas el año que viene. Con un poco más de tiempo, para el 2031, esta herramienta podrá superar los resultados de ventas de los humanos.

[Se buscan donantes de voz para que la inteligencia artificial entienda los 20 dialectos del catalán]

Y, si eso es posible, es gracias a iniciativas como AINA o ILENIA, que crean un corpus de versiones idiomáticas de determinadas frases (atendiendo a factores dialectales, de género o de edad) en idiomas en peligro de extinción que en un futuro harán más completo cualquier modelo de inteligencia artificial basado en reconocimientos de voz.

Decimos en un futuro, pero, realmente, también es algo que se empieza a palpar en el presente. No hace falta más que echar un vistazo a los casos de uso más avanzados de AINA para barruntar qué nos puede deparar el futuro.

Marta Villegas, jefa de la Unidad de Tecnologías del Lenguaje del BSC-CNS, explica, en conversación con D+I, que los primeros grandes beneficiados por los avances de esta iniciativa serán los ciudadanos y los miembros del parlamento catalán.

Según revela, "estamos trabajando en un caso de uso en colaboración con TV3 -televisión pública catalana- para la generación de un chatbot meteorológico que distinguirá idiomas y contestará en consecuencia".

[Preguntas, respuestas y varias aclaraciones sobre el PERTE del español]

Pero quizá el caso de uso más llamativo quizá irrumpa en el parlamento catalán. Un diario de sesiones generado de forma automática, que incluye la identificación de los políticos, facilitaría el trabajo a los famosos taquígrafos.

Según admite Villegas, en virtud del proyecto ILENIA, los parlamentos gallego, vasco y valenciano, también estarían interesados en este revolucionario sistema.

Por último, un asistente domótico en catalán completa esta terna de iniciativas que son posibles gracias a la creación de este corpus idiomático que arrancó con la captación de donantes de voz de cualquier rincón de Cataluña.

Villegas explica, por cierto, que esta campaña, "que fue un éxito", lo ha acabado siendo también a nivel mundial. Para valorar esta afirmación hay que hablar primero de Common Voice, un gran banco de voces del mundo concebido como una fuente de datos en abierto para desarrollar modelos de inteligencia artificial.

Pues bien, la responsable del BSC-CNS recalca que "el catalán ahora es la primera lengua en Common Voice, incluso por encima del inglés; está considerada como una de las cuatro lenguas con alta frecuencia de búsqueda junto con el francés, el alemán y el español".

El caso es que ILENIA -entendida ya como el compendio de todas las iniciativas similares que había en España en torno a este mismo tema- está llamado a ser el verdadero motor idiomático de la inteligencia artificial.

Se enmarca dentro del Proyecto Estratégico para la Recuperación y Transformación Económica de la Nueva Economía de la Lengua, que busca impulsar en España la nueva economía digital basada en el lenguaje natural, aprovechando el potencial del español y del resto de lenguas oficiales como factor de crecimiento económico y de competitividad internacional en áreas tales como la inteligencia artificial, la traducción, la enseñanza, la producción y divulgación cultural, la investigación y la ciencia.

La duración es de 36 meses y se coordina a través de una red en la que se integran cuatro proyectos propios con metodología, objetivos y técnicas compartidas. La coordinación general se lleva a cabo por parte del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS).

Evolución a una rapidez "desorbitada"

"La gracia de ILENIA es que nos hemos puesto de acuerdo, es un proyecto coordinado y aunque en cada lengua parte de una situación diferente porque hay medios y recursos diferentes, digamos que el objetivo es el mismo. Trabajar de forma coordinada y alineando objetivos y recursos, aprovechamos al máximo los fondos y reducimos redundancias. El objetivo común es la construcción del corpus multilingüe de España", reflexiona Marta Villegas.

La clave de todo el proceso, según la responsable del proyecto es que "la tecnología en este ámbito evoluciona a una rapidez desorbitada, cada dos días aparece un modelo nuevo, una arquitectura nueva que lo hace mejor que la anterior".

Al final, insiste, "todo se basa en tener datos suficientes, datos de texto, datos de voz, o incluso de imagen, que permitan un mejor entrenamiento".

Lo que han desarrollado los distintos grupos de ILENIA es "generar un corpus común de frases a leer; es decir, si todos leemos en cada lengua las mismas frases, acabaremos teniendo un corpus multilingüe que te permitirá entrenar modelos de lengua de voz a voz".

El trabajo también incluye "la captación de datos textuales porque necesitamos muchos, muchos datos".

En el caso de AINA, según revela Marta Villegas, "hemos hecho ya un primer modelo importante de 7.000 millones de datos. No son los 175 billones de parámetros que tiene el ChatGPT, pero ya es un señor modelo".

Hablando de ChatGPT, de todos los datos contenidos en la primera versión de este modelo de inteligencia artificial generativa, el 0,019% de los datos eran en catalán.

Eso lleva a dos reflexiones fundamentales. La primera es que hay mucho margen de mejora; la segunda, que son necesarias fuentes de datos abiertos para incrementar ese porcentaje, al menos, en los proveedores que se sirven de estos bancos de datos.

"No podemos dejar el know-how en manos de las grandes compañías. O sea, aquí hay que espabilarse y decir 'nosotros también tenemos que ser capaces de investigar, hacer modelos'. Poner datos en abierto crea comunidad", explica Villegas.

En resumen, según indica la jefa de la Unidad de Tecnologías del Lenguaje del BSC-CNS, "es fundamental que podamos hacer vida digital en todas las lenguas, acostumbrarnos a entrar en el coche y dar una orden al GPS en catalán". Es la manera que tienen iniciativas como AINA e ILENIA de preservar idiomas que, a nivel global, están considerados en peligro de extinción.

Sigue los temas que te interesan

Inteligencia artificial

Tecnología

Innovación

Lenguas

Evolución a una rapidez "desorbitada"

Más en España