Los secretos literarios que desvela la informática: de la obra nueva de Cervantes al autor del 'Lazarillo'

Celia Torres

Los últimos descubrimientos de un grupo de investigadores de la UNED rompen las fronteras entre ciencia y literatura. Las que a priori pueden parecer disciplinas totalmente alejadas, ahora se dan la mano en uno de los proyectos más llamativos de los últimos años desarrollados en Europa: el Computational Literary Studies Infraestructure.

Este proyecto que bebe de las posibilidades de la inteligencia artificial, en el que la UNED colabora con otras doce instituciones continentales, consiste en la creación de herramientas digitales que permiten leer obras de siglos anteriores y desvelar quiénes son los autores que se esconden tras pseudónimos más misteriosos.

Un texto anónimo descubierto que pertenece a Miguel de Cervantes, la identidad real de la misteriosa novelista italiana Elena Ferrante o libros escritos por J. K. Rowling bajo otro nombre son algunos de los hallazgos más llamativos que han propiciado estas investigaciones.

El algoritmo desarrollado permite analizar poemas, contar sus estrofas y sílabas o identificar figuras retóricas, además de la técnica de la estilometría que regala revelaciones como las de la autoría oculta. Esta tecnología se está empezando también a aplicar en géneros como el teatro o la novela. Austria, Alemania, Serbia, Francia o Irlanda son algunos de los países que colaboran en el proyecto y comparten sus conocimientos para verter luz sobre los enigmas de la literatura.

Doce instituciones europeas colaboran en la creación de herramientas digitales que leen en el XXI las obras de siglos anteriores UNED

Las creaciones tienen patrones y los versos una construcción casi arquitectónica. "Para aplicar la minería de datos a la investigación literaria lo que hacemos es partir de textos en formato legible por los ordenadores y a partir de ahí utilizamos los algoritmos y aplicaciones para extraer información", explica a este periódico Salvador Ros, investigador de la UNED implicado en el CLS Infra.

La estilometría

La técnica de la estilometría es clave a la hora de identificar la autoría real de ciertos textos y poder reconocer a los autores de dichas obras. Muchas escritoras no pudieron firmar sus trabajos y en su lugar situaron el nombre de sus maridos como autores de las obras. Ahora, gracias al algoritmo se puede descifrar la auténtica autoría, para darle a todas esas artistas el reconocimiento que se merecen.

"Es una técnica que se basa en la frecuencia de palabras, en cómo los autores utilizan el lenguaje en sus obras", explica Salvador Ros, que relata alguno de los descubrimientos más interesantes hasta la fecha.

Una de las grandes incógnitas de la historia de la literatura es el autor del Lazarillo de Tormes, que llegaron a atribuir a Alfonso de Valdés y que gracias a estas investigaciones se ha descartado por completo que sea uno de los candidatos. Otros nombres que se barajan son Juan de Valdés, Juan Arce de Otálora, Fray Luis de León, Diego Hurtado de Mendoza o Francisco Cervantes de Salazar.

Casos como el de J.K. Rowling, autora de la saga de Harry Potter, que había escrito dos libros firmados con un pseudónimo también son curiosos. Identificaron los patrones estilométricos y vieron que el estilo coincidía en un 90% con el de los libros de la saga de magia. "Hubo un experto en la autora que sospechaba que esa obra era suya, se cogieron todos sus textos, se metieron en el ordenador junto con la obra en cuestión y efectivamente, los algoritmos encontraron que había unas características a la forma de escribir que correspondían a la autora", relata Ros.

La autora de la saga juvenil Harry Potter, JK Rowling .

Unos análisis de autoría que podrían haber contribuido a aclarar otro de los misterios de la novela reciente: quién es realmente la escritora italiana Elena Ferrante.

Todo esto puede suponer un gran cambio en el mundo cultural, y favorecer a la literatura escrita por mujeres, sacando a la luz figuras ocultadas o relegadas a la figura del marido.

Cervantes en el radar

Según explica Ros, en el momento en el que se tiene información sorbe los textos de un autor es fácil ver la marca que deja el lenguaje. Unos rasgos característicos, o como Ros explica "esas migas de pan que deja el autor en sus textos", que los algoritmos saben detectar.

Otro caso curioso está vinculado a un texto de Cervantes, que no era una obra suya oficialmente sino que estaba atribuida a otro autor, y cuya firma ahora retorna a su creador original.

Miguel de Cervantes

El texto La Conquista de Jerusalén fue descubierto por el hispanista italiano Stefano Arata a finales de los años ochenta del siglo XX y se sitúa durante la Primera Cruzada. La trama alterna escenas en el lado cristiano, que rodea la ciudad, y en el lado musulmán, que resiste el asedio. Además, entrelaza dos episodios amorosos: del cristiano Tancredo y la mora Clorinda, y el del mismo personaje masculino y la princesa Herminia.

Los mayores retos

Según explica el investigador, el reto más importante es el semántico, ya que en el terreno literario, y en concreto en la poesía, "muchas frases no se pueden entender como literales y pueden tener un significado diferente o estar llenas de simbolismo, como en el caso de las metáforas".

A su vez, el castellano es una de las lenguas que más se utiliza en el mundo y que menos desarrollo tiene. "Las grandes noticias e infraestructuras de inteligencia artificial son en inglés, y nosotros tenemos que generar esas mismas herramientas para nuestro idioma", expresa el investigador. ¿Cuál es el mayor obstáculo? Ros lo tiene claro: "En España existe una cultura de no compartir los conocimientos y avances. Esto tiene que cambiar para poder crecer".

Por otra parte, estos avances abren el debate entre los artistas de la esfera cultural y los expertos en humanidad digital. La pregunta de cuál es el límite para no sobrepasar la línea del alma y de la mente creadora es una constante. "Creo que es una simbiosis. Los ordenadores hacen su trabajo y el investigador el suyo. La tecnología es una ayuda y no un competidor. Yo lo tengo claro, la creatividad humana es insustituible, aunque creo que en el futuro existirán programas que sean capaces de producir poemas, como las obras de arte digitales que se venden por miles de euros en las ferias", relata Ros.

La estela de 'Postdata'

Este proyecto está inspirado y vinculado con otro anterior, 'Postdata' (Poetry Standardization and Linked Open Data) con el que Ros y la investigadora Elena González-Blanco abrieron el camino en el uso de la tecnología dentro del género literario. Una investigación que pretende trabajar la poesía con dos núcleos: "el ontológico, que buscar conseguir un marco para compartir toda la información de la poesía europea; y una parte muy potente de aplicaciones de técnicas del lenguaje, que sería la tecnología aplicada al castellano y en concreto a la poesía".

Esquivar el odio

El racismo o sexismo existente en los textos registrados es otro de los grandes problemas, porque provoca la necesidad de filtros a la hora de crear textos desde cero. "Es un problema que hay en la definición propia del lenguaje. Para saber si un texto tiene una gran carga racista o sexista necesitamos vocabulario que en castellano nos digan cómo se expresa todo este tipo de conceptos. Como comentaba antes, en poesía todo tiene un simbolismo por encima de su significado, por lo que todo se hace terriblemente más complicado en este género", nos cuenta Ros.

Los algoritmos se nutren de lo que está escrito y representan lo que la sociedad ha expresado en sus textos a lo largo de la historia. Como una pescadilla que se muerde la loca. Salvador Ros y su equipo de investigadores continúa trabajando en este asunto, con el foco puesto también en la similitud semántica y la creación de categorias a partir de conexiones entre distintas canciones y poemas. "Llegará un momento en el que una máquina, un "Alexa" o un Google Home podrá crear un ambiente basándose en los sentimientos de la persona", imagina utopicamente Salvador Ros.