Nueva sede recién inaugurada del Barcelona Supercomputing Centre.

Nueva sede recién inaugurada del Barcelona Supercomputing Centre.

Investigación

Así es el supercomputador capaz de crear las redes neuronales que comprenden y escriben la lengua española

El BSC-CNS está a la espera de recibir el MareNostrum 5 que multiplicará por 18 la capacidad actual de este supercomputador español. 

12 noviembre, 2021 02:59
Barcelona

Noticias relacionadas

MarIA es uno de los proyectos que están en marcha en el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS). Financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center, es una iniciativa del BSC-CNS e IBM, abierto a cualquier desarrollador, empresa o entidad, que lo puede utilizar sin coste alguno.

Se trata de un conjunto de modelos del lenguaje, de redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto.

Son redes neuronales que entienden los conceptos abstractos y el contexto de los mismos. En definitiva, un sistema de inteligencia artificial capaz de comprender y escribir la lengua española correctamente.

Supercomputador MareNostrum 4  del Barcelona Supercomputing Center.

Supercomputador MareNostrum 4 del Barcelona Supercomputing Center.

“Proyectos como MarIA, o AIna para la lengua catalana, la avanzadilla de futuros modelos entrenados para gallego, euskera, portugués y español de Latinoamérica, no serían posibles sin un superordenador como MareNostrum 4”, afirma Marta Villegas, responsable de los proyectos MarIA y AIna y líder del grupo de minería de textos del BSC-CNS.

Para crear el corpus de la red neuronal de la lengua española se utilizaron 59 terabytes del archivo web de la Biblioteca Nacional. El supercomputador los procesó y eliminó todo lo que no era correcto, para lo que empleó casi siete millones de horas. El resultado, espectacular: 201.080.084 documentos limpios que ocupan 570 gigabytes de texto sin duplicidades.

Una vez creado el corpus, había que entrenar el modelo para aprender a utilizar la lengua. Para ello se utilizó la arquitectura Transformer, presentando a la red neuronal textos con palabras ocultas que tenía que adivinar según su contexto. Para llevar a cabo este entrenamiento fueron necesarias más de 184.000 horas.

Ahora, el equipo liderado por Villegas, está trabajando en su ampliación, con nuevas fuentes de archivos que aportaran textos con particularidades diferentes a los que se encuentran en los entornos web, como publicaciones científicas del CSIC.

Interior MareNostrum 4.

Interior MareNostrum 4.

Además, también está inmerso en que la programación pueda realizarse utilizando el lenguaje natural. “Pasar del teclado al manos libres tendrá un gran impacto tanto para la accesibilidad como para la democratización de muchos servicios, el acceso a la cultura y en otros muchos más ámbitos”, explica Villegas.

Por ejemplo, indica que “cuando esté listo este sistema podrá hacer, por ejemplo, un resumen del periódico o de textos complicados, funciones que ya son posibles en inglés pero que en castellano todavía quedan lejos”.

Con el procesamiento de imágenes se rescataron las redes neuronales, una idea anterior que nació cuando la capacidad computacional todavía no era suficiente para llevarla a cabo. Una vez recuperadas, se pasó a la aplicación del lenguaje, aprendiendo sobre muestras ingentes de textos.

¿Qué nos depararan las redes neuronales en el futuro? Villegas da algún ejemplo: “todo el mundo podrá escribir en su idioma y la tecnología será la encargada de traducirlo a la lengua que cada persona desee, o bien realizará traducción simultánea en las videoconferencias, o también subtitulación automática de películas”. Las aplicaciones son infinitas, tanto como los procesos encomendados a la supercomputación.

Investigación y divulgación

BSC-CNS, además de ser una gran infraestructura científica que da servicio a la investigación pública europea, también es un centro de investigación y de divulgación, de formación y de creación de iniciativas empresariales en forma de spinoff.

El área de investigación del centro está dividida en cuatro departamentos –Ciencias de la Computación, de la Tierra, de la Vida e Ingeniería– que se centran en proyectos como el paso del diseño académico de chips al mercado, la coordinación de Quantum Spain para la construcción e instalación del primer ordenador cuántico basado en tecnología europea, la calidad del aire y las previsiones del cambio climático en la agricultura o la energía, la genómica y la medicina personalizada, la energía, la industria y las Smart Cities. El BSC-CNS, por ejemplo, se ha convertido en uno de los centros europeos que más datos ha recopilado sobre la covid-19.

A la espera de albergar el nuevo MareNostrum 5, en un plazo no mayor a un año y medio, el BSC-CNS inauguró el pasado octubre una nueve sede corporativa en el edificio BSC-Repsol Building, en Barcelona.

El nuevo espacio dispone de 12.000 m2, cuenta con cuatro plantas de oficinas, 35 salas de reuniones, dos aulas de formación, un auditorio y diversos puntos de encuentro para fomentar el intercambio de conocimiento entre los investigadores.

En él están instaladas 530 personas, dos tercios de la plantilla del BSC. El resto, hasta 765 trabajadores, están situados en dos edificios próximos, en los jardines de Torre Girona, en el área universitaria del barrio de Pedralbes de la capital catalana.

El lugar es un remanso de paz. El nuevo edificio está conectado, a través de una pasarela, al que ha sido hasta ahora el más emblemático del conjunto, la capilla Torre Girona, 'hogar' del superordenador MareNostrum 4.

Es en sus sótanos donde se construye una nueva sala para el MareNostrum 5, que multiplicará por 18 la capacidad del actual y cuadriplicará el espacio físico que ocupa. “Durante un tiempo coexistirán los dos superordenadores pero la versión 4 acabará desapareciendo”, afirma.

Villegas, y la capilla de Torre Girona se mantendrá como espacio icónico y visitable, a la vez que albergará en sus entrañas infraestructuras de supercomputación y datos de primer nivel.

En España, el BSC-CNS coordina y lidera la Red Española de Supercomputación desde 2007. Son 13 los nodos distribuidos en 11 comunidades autónomas que colaboran para proporcionar servicios informáticos y de datos a la comunidad investigadora. Los fondos que recibe proceden en un 60% del gobierno de España y el resto de la Generalitat de Catalunya y la Universidad Politécnica de Cataluña (UPC).

Para el rector de esta institución, Daniel Crespo, “el BSC-CNS es un orgullo para el país y para la UPC. Es una gran satisfacción ver como un proyecto que se gestó en la UPC hace ya más de 20 años ha alcanzado el máximo nivel de excelencia y competitividad científica mundial. La investigación científica que se desarrolla en el BSC beneficia a la UPC, a Catalunya, a España y a la humanidad en su conjunto”.