Santiago Muñoz Machado, director de la RAE, y Alberto Granados, presidente de Microsoft en España, en la presentación del acuerdo sobre el proyecto LEIA para impulsar el uso del español en el entrenamiento de algoritmos. Foto: A. Iglesias.

Santiago Muñoz Machado, director de la RAE, y Alberto Granados, presidente de Microsoft en España, en la presentación del acuerdo sobre el proyecto LEIA para impulsar el uso del español en el entrenamiento de algoritmos. Foto: A. Iglesias.

Tecnológicas

La RAE quiere "imponer" sus normas del español a la inteligencia artificial y espera fondos del Gobierno para ello

La Academia concreta su colaboración con Microsoft en el proyecto LEIA mientras espera a los fondos del PERTE del español de Pedro Sánchez.

1 diciembre, 2021 01:33
Madrid

Santiago Muñoz Machado, director de la Real Academia Española, reconoce no saber "dónde nos llevará" la inteligencia artificial "desde el punto de vista del idioma". Y, sin embargo, está convencido de la necesidad de "estar ahí" para alejar el fantasma de que el español pase a ser dominio de las grandes tecnológicas y no de la RAE, como acostumbra.

De lo que sí sabe la Academia es de la lengua española. Desde 1713, durante tres siglos que se dicen pronto, la RAE viene velando por el uso correcto del idioma que es patrimonio común de casi 600 millones de personas en todo el mundo.

"Hemos convencido a los humanos sobre cómo debían usar el español en base a nuestra reputación. Pero no podemos hacer que las máquinas sigan las mismas reglas sin hablar con los fabricantes", añade Muñoz Machado. "Estamos obligados a situarnos en el mundo digital para que la inteligencia artificial empiece a hablar en español, imponer la razón en este nuevo universo y evitar que se nos vaya de las manos el idioma en favor de las grandes multinacionales tecnológicas".

El creciente uso de la inteligencia artificial en español, a través de correctores ortográficos o herramientas de traducción instantánea, ha despertado todas las "preocupaciones" en la RAE por su inadecuado uso del lenguaje. "Si no hacemos que sigan nuestras reglas, podemos caer en la fragmentación de la calidad y regulación del idioma según el criterio de cada una de las tecnológicas. Por ejemplo, nuestro diccionario tiene 94.400 entradas, pero la mayoría de los correctores usan menos de 80.000 palabras procedentes de diccionarios extranjeros", critica el director de la institución.

Para ello, la RAE anunció hace dos años en Sevilla el proyecto LEIA: una iniciativa de colaboración con las grandes tecnológicas para prestar su enorme y vasto conocimiento del idioma a la hora de que se entrenen los algoritmos en cuestión. ¿En qué consiste esta iniciativa? En poner a disposición de estas firmas nada menos que 375.000 conjuntos de datos derivados del diccionario, con de 1.000 a 2.000 actualizaciones anuales junto a 325 millones de formas léxicas registradas, que aumentarán "a 625.000 millones de formas en un futuro próximo".

Este proyecto, en el que participan compañías como Telefónica, Amazon Web Services o Microsoft -a las que "se añadirán otras tecnológicas en las próximas semanas", según ha adelantado Santiago Muñoz Machado-, no es más que la punta de lanza de la irrupción de la RAE en la arena digital. Aunque muchos de estos proyectos están ligados a que se materialicen los fondos del PERTE del español, anunciado recientemente por el presidente Pedro Sánchez.

"No hemos tenido hasta ahora ningún apoyo del Gobierno a LEIA. Esperamos tener ayuda económica razonable para seguir mejorando estos instrumentos y, por eso, hemos ofrecido algunos proyectos al PERTE, los cuales queremos suponer que se incorporarán cuando se concrete este plan", responde Muñoz Machado a preguntas de D+I. "Sin duda, pretendemos que la RAE tenga una posición central en el PERTE del español".

Por ser más específicos, la Real Academia Española busca recibir fondos para llevar adelante su Diccionario Histórico ("una joya pendiente que llevamos trabajando desde 1914 y que avanza lentamente, con la que queremos esbozar una biografía de cada una de las palabras") o mejorar su corpus para llegar a los ya mentados 625.000 millones de formas léxicas para "situarnos en el nivel en que operan las tecnológicas".

A largo plazo, Santiago Muñoz Machado adelanta el lanzamiento de una certificación de calidad del idioma en sistemas digitales: "Aún no estamos en esa fase, pero es claramente una ambición que siempre hemos tenido".

Microsoft en la avanzadilla

Si bien en LEIA participan los grandes nombres del sector digital, ha sido Microsoft la que se ha adelantado en la concreción de sus trabajos junto a la Real Academia Española. Su propio Alberto Granados, presidente de Microsoft en España, ha admitido en rueda de prensa que poner el idioma en el epicentro de sus desarrollos "era algo que debíamos haber hecho hace tiempo" en su afán de "combinar innovación y tradición".

Los de Redmond emplearán los 375.000 conjuntos de datos de la RAE para entrenar todos sus servicios, desde la nube de Azure hasta Windows, Bing o las herramientas de productividad y colaboración (Office 365, Teams). Hablamos de tecnologías con capilaridad en todas estas funcionalidades que abarcan desde la mera identificación del lenguaje hasta el análisis de sentimiento, pasando por la conversión de texto a voz, transcripciones o modelos de lenguaje avanzados.

Imaginen el potencial en sectores como el del 'contact center', el judicial (para el resumen automatizado de grandes volúmenes de informes) o para sintetizar información para los periodistas a la hora de elaborar sus piezas. 

"Esto finalmente tendrá un efecto amplificador por nuestro alcance. Uniremos estas capacidades con la traducción que tenemos a otras cien lenguas. También incorporaremos este conocimiento a nuestro proyecto ZCode, una suerte de Torre de Babel en la que entrenamos algoritmos en diferentes idiomas. Y, por supuesto, pondremos en abierto todos estos datos para que tenga efecto tractor en otras empresas", añade Granados.