En la Babel de la Unión Europea hay tres idiomas ‘de trabajo’ (inglés, francés y alemán) y 24 oficiales, en los que se puede comunicar cualquier ciudadano con las instituciones europeas, y en los que se redactan y publican los actos jurídicos de la UE. Se usan en el Europarlamento y en determinadas reuniones y actos, tirando de una legión de traductores. El sistema cuesta un 1% del presupuesto anual.

Es un asunto complejo y que puede ocasionar complicaciones políticas, como le ocurre ahora mismo al primer ministro Pedro Sánchez, tras prometerle en vano al fugado Puigdemont que impondría la oficialidad del catalán en Europa. La respuesta evasiva de otros líderes europeos, en particular del canciller alemán Merz, es que, gracias a los avances de la inteligencia artificial, “en el futuro ya no será necesario contar con traductores humanos”. Y dejará de haber problema.

Pero quizás Merz no hablaba del futuro, sino del presente. O eso sugieren las afirmaciones del CEO de Tilde, Arturs Vasilevskis, cuyo software IA de traducción fue presentado oficialmente a principios de octubre y puesto de largo como sistema oficial de interpretación en la conferencia Techritory de Riga, un par de semanas después. En el evento, su aplicación hizo traducción automática instantánea, de viva voz, con subtítulos y transcripción posterior. Y resulta que el desarrollo fue un encargo formal de la Comisión Europea.

“Permítame comenzar con una especie de breve resumen sobre la empresa, porque en realidad es bastante relevante cómo se nos ocurrió esta aplicación en código abierto y por qué la Comisión nos asignó desarrollar este modelo europeo de IA. Tilde se estableció hace 30 años”, declara Vasilevskis a Disruptores, como preámbulo de esta conversación mantenida durante la conferencia.

“Tenemos en nuestro ADN este código: creemos que cada idioma merece el mismo respeto que el inglés en términos de accesibilidad y calidad en esta era de IA digital”, prosigue. “No es un secreto que para el inglés las tecnologías IA están bastante bien desarrolladas en traducción automática, reconocimiento de voz y grandes modelos de lenguaje. Y como los modelos de última generación disponibles se basan en servicios como ChatGPT, Copilot, Gemini y Grok, el núcleo de los datos de entrenamiento es en inglés. Más del 90% de los datos son en inglés. Cada uno de los demás idiomas, incluido el letón, el propio español, el chino mandarín… son cero punto algo… y eso afecta a la calidad”.

Un rápido vistazo a la aplicación, en el propio portátil de Vasilevskis, muestra un larguísimo listado de idiomas disponibles que el interlocutor pasa a toda velocidad. ¿Están todos los idiomas europeos, incluidas las lenguas regionales, que para España es un asunto políticamente bastante sensible?

“Sí. El objetivo principal era representar todos los idiomas europeos. Los datos de entrenamiento se prepararon para cada idioma a partir de la forma morfológica en la que usamos el lenguaje. Porque esos modelos de inglés de Estados Unidos, se aplican igual para la preparación de datos para el inglés y para los idiomas restantes. Cada idioma es tratado individualmente para representar la forma en que se usa el lenguaje morfológicamente, como tokenizador específico, excelente y dedicado”.

132 idiomas soportados

Un vistazo posterior, con más calma, al listado de lenguas soportadas en la plataforma “para traducción” da una cuenta de 132 (varias se duplican usando por separado su grafía propia y la latina). Están incluidas catalán, vasco y gallego. Además de un montón de idiomas que este periodista sería incapaz de ubicar en un mapamundi, como el amharic, el igbo o el bodo. Y otros más localizables como el feorés o el frisón occidental. Por cierto, ni valenciano, ni aranés.

De ese largo listado, 60 trabajan con el modelo grande de lenguaje de Tilde, que facilita, además de la traducción, sumarización y reordenación de las frases. El resto requiere “plugins e integraciones”. La aplicación se puede probar libremente y para una utilización regular tiene un “modelo de uso freemium”.

“Cuando usamos este tipo de servicios, podemos ver que ChatGPT o Copilot brindan respuestas bien y profundamente razonadas. Pero la calidad del lenguaje es un poco extraña”, aclara Vasilevskis. “Podemos observar claramente la forma en que se seleccionan las palabras, la forma en que se construyen las oraciones… No es la forma en que a los letones, españoles o alemanes nos gustaría ver esas frases”.

“Estaba absolutamente claro que Europa necesita su propia IA. Una IA que aborde nuestros valores en términos de privacidad de datos, transparencia y calidad”, asegura. "Y este fue uno de los objetivos prioritarios de la Comisión Europea, de la presidenta Van der Leyen, para impulsar la IA europea. Para que tenga nuestras propias soluciones y no dependa de las aplicaciones de las grandes empresas tecnológicas estadounidenses. Salir de la estricta perspectiva del consumidor, para desarrollar e innovar en el contexto de la IA”.

“Y había una gran competencia”, rememora el CEO de Tilde. “Hace un año hubo una competición de la Comisión europea con el objetivo de construir una base para la IA europea. Nosotros ya llevamos 30 años en este campo de las tecnologías del lenguaje, y tenemos clara esta misión de apoyar las lenguas europeas. Presentamos nuestra propuesta, nuestra visión, cómo creíamos que debería involucrarse la IA europea y cuáles son los próximos pasos. Fuimos seleccionados y la Comisión nos encargó desarrollarla, abordando particularmente todos los idiomas europeos por igual en términos de calidad, en términos de representación en el modelo de lenguaje grande”.

También incide en lo problemático que puede resultar apoyarse en las IA estadounidenses. “No es secreto y hay una discusión bastante grande sobre lo que podemos confiar en las aplicaciones como ChatGPT, Gemini, Copilot, etcétera. Se ha descubierto que la inteligencia rusa, desde el primer día cuando se introdujo ChatGPT, ya entendió que cambiará por completo la forma en que usamos la tecnología, y cómo pensamos. Si no sabes algo, generalmente buscas en Google. Ahora las generaciones X y Z hacen las preguntas y a ChatGPT...”.

Contaminación de contenidos

“Y la inteligencia rusa lo captó: Esta será la tecnología que nos dará oportunidad de impactar en los pensamientos de los ciudadanos, en la forma en que ven la historia y de entender lo que está sucediendo en el mundo” prosigue. “E hicieron, un movimiento muy inteligente. Crearon una red en Internet y la llamaron como la cadena de periódicos, Pravda” [el nombre significa ‘verdad’ y es un periódico perteneciente al PC ruso].

“Crearon tres millones y medios de sitios web, donde están constantemente lanzando contenido, lo cual es muy atractivo para esos rastreadores de IA. Y estos contenidos creados por la propaganda rusa infectaron a todos esos modelos estadounidenses con su visión, la narrativa y la perspectiva rusa del mundo”, asevera Vasilevskis.

“Nos dimos cuenta de eso y consultamos con la inteligencia de Ucrania y con la inteligencia europea para filtrar todos esos datos infectados de la red rusa, para crear nuestro modelo europeo, en el que nos gustaría que realmente se pueda confiar para el uso de nuestra administración pública e industria”.

El resultado fue ese LLM “fundacional”, para el que la CE otorgó a Tilde “acceso a la supercomputadora más poderosa de Europa, Lumi, proporcionándonos dos millones de horas de GPU”, dice Vasilevskis. Lumi es uno de los supercomputadores más potentes del mundo y el más rápido de Europa. Está ubicado en Kajaani, Finlandia, formando parte del proyecto EuroHPC Joint Undertaking.

“Para construir este modelo fundamental, hay tres pilares cruciales”, presume. “Uno es la infraestructura, con esas horas de GPU. El segundo es la competencia para construir un modelo tan único. Y estoy particularmente orgulloso de mi empresa. Adquirimos a lo largo de 30 años esta competencia para desarrollar tecnologías lingüísticas, con experiencia en traducción automática y reconocimiento de voz".

"Hay unos Juegos Olímpicos de traducción automática anuales, y cuando comparamos el rendimiento, en términos de calidad, con jugadores tan grandes como Google y DeepSeek y otros, durante cinco años consecutivos les hemos superado”, añade.

Representación de todas las lenguas

“Y con la red de nuestros socios en toda Europa logramos recopilar una gran cantidad de datos, que representan cada idioma europeo. Lo hicimos, de manera diferente a cómo las empresas estadounidenses o chinas crean grandes modelos de lenguaje. En primer lugar, recopilamos los datos, los filtramos y seleccionamos para que todos los idiomas estén representados por igual en la cantidad de datos de entrenamiento. Este modelo de lenguaje, en su núcleo representa por igual a todas las lenguas europeas”.

Vasilevskis subraya que “la arquitectura en sí misma es muy eficiente, muy ajustada para un lenguaje específico, un resultado muy rápido. Es un modelo grande y también muy eficiente energéticamente. En pruebas preliminares, compitiendo con Llama o Gemini, si usamos, por ejemplo, letón, español, alemán… nuestro modelo abierto es más eficiente en un 30%, incluso en un 40%. Es una enorme mejora y también en consumo de electricidad. Y es bastante grande, con 30.000 millones de parámetros, completamente de código abierto, transparente en cuanto al tipo de datos que se utilizaron para el entrenamiento y los pesos para la configuración”.

Respecto a la disponibilidad: “Hemos publicado el modelo en Hugging Face [plataforma de código abierto para modelos IA], y está disponible para la sociedad. La industria y las universidades pueden desarrollarlo aún más hacia otros idiomas o dialectos específicos. Tenemos una excelente base que ya aborda las necesidades propias de cada idioma en términos de morfología y se puede extender aún más”.

Según Vasilevskis, “este modelo fundamental podría también usarse para la creación de aplicaciones prácticas como un ChatGPT europeo. En realidad, hemos creado una plataforma fundacional europea de IA, que ahora podría usarse y ampliarse de diversas maneras”.

La curiosidad sobre el nombre de la compañía, Tilde, que nos suena tan acentuadamente español, obtiene la respuesta de que en letón es la palabra que designa al signo ortográfico que nosotros llamamos ‘virgulilla’, el sombrerete que corona la ñ. El letón es un idioma lleno de signos que modifican vocales y consonantes.

“Nuestra empresa nació en 1991, cuando Letonia recuperó la independencia y aparecieron las primeras computadoras portátiles. Existía la necesidad esencial de escribir en una computadora con letras letonas, pero no eran compatibles. Había apoyo para el inglés y no había forma de hacerlo. Nuestros fundadores en ese momento trabajaban en News Gazette en el departamento de TI. Crearon una pequeña aplicación que permitía acceder en el teclado a las letras letonas. Y el símbolo del teclado era la tilde”, explica.

“Así empezamos. Luego surgió otra necesidad, el corrector para el letón. Y creamos una herramienta de corrección y ortografía. Después, diccionarios digitales… nos expandimos a Estonia y Lituania. Y luego era necesario traducir las oraciones y apareció la traducción automática, con la que vencimos a Google haciendo traducciones más precisas y fiables para nuestros idiomas. Luego, el reconocimiento y síntesis de voz. Y desde hace cinco años estamos en la era de la IA, en la que entramos de manera bastante lógica y orgánica”.

El paso actual de Tilde, una empresa con sólo 150 empleados, es la “localización profesional” para documentos como manuales de usuario y descripción de productos de grandes empresas que desean entrar en el mercado europeo. “Es una industria enorme”, remacha Vasilevskis.