“Se especula que, actualmente, hay más texto manuscrito que texto automático, por todo lo que se ha acumulado a lo largo de la historia. Y todo ello está pendiente de ser leído y explorado”. Con este nicho de negocio en mente, se ha creado la startup Transkriptorium, explica Enrique Vidal, uno de los cofundadores de Transkriptorium, que destaca el enorme mercado potencial que suponen los archivos y bibliotecas de todo el mundo.

Por ello, esta spin off (empresa derivada) surgida de la Universitat Politècnica de València nace con el objetivo de explotar tecnología de transcripción e indexación de la información contenida en imágenes digitalizadas de documentos manuscritos.

Joan Andreu Sánchez, el otro cofundador, apunta que se cuentan “por kilómetros la cantidad de documentos manuscritos que quedan por transcribir e indexar”. Por poner un ejemplo, “si la Biblioteca Nacional alineara los documentos que atesora se superarían los 100 km de papel”.

Sánchez subraya que la tecnología desarrollada por Transkriptorium “supera cualquier solución actual basada en el trabajo humano experto sobre el texto”, por lo que aplicar este proceso en los ámbitos administrativos, culturales, económicos o legales “es una clara oportunidad económica. No existen más de tres o cuatro empresas en todo el mundo que se dediquen comercialmente a ello”.

Sánchez destaca que tras más de 20 años de trabajo se ha desarrollado esta tecnología que ahora se transfiere a esta spin off. “Son infinidad de casos de uso, trabajando con instituciones tanto públicas como privadas. Todo ello nos ha dado la experiencia necesaria”.

La tecnología desarrollada está basada en métodos estadísticos y consiste en obtener un mapa de probabilidades de una imagen determinada. Con las técnicas de inteligencia artificial y aprendizaje automático (machine learning), Transkriptorium ha conseguido acceder a los contenidos de miles de páginas antiguas manuscritas.

Constitución de la empresa

Esta misma semana se ha constituido formalmente esta spin off (empresa derivada) surgida de la Universitat Politècnica de València. El equipo promotor está formado por Joan Andreu Sánchez Peiró y Enrique Vidal, profesores del Departamento de Sistemas Informáticos y Computación y miembros del Centro Tecnológico de Reconocimiento de Patrones y Lenguaje Humano (PRHLT, por sus siglas en inglés).

Igualmente, forman parte de Transkriptorium Vicente Bosch, técnico superior también del PRHLT; Alejandro Héctor Toselli, investigador científico asociado de la Northeastern University (Boston, EEUU) y Verónica Romero, profesora de la Universidad de Valencia. Por último, el consultor privado Luis Antonio Morró se incorpora a la iniciativa como CEO de la empresa.

Durante décadas, los investigadores de PRHLT han afinado la tecnología gracias a los proyectos europeos concedidos a su equipo. Un antecedente es Himanis que, en 2017, permitió indexar la colección de registros del Trèsor des Chartes, el Tesoro de las Cartas, antiguos archivos de la Corona de Francia, denominados también Chancery. La colección contiene más de 70.000 páginas de registros de actos de la cancillería real francesa de los siglos XIII y XIV.

En 2019, llegó el proyecto Carabela, desarrollado durante los últimos dos años y que ha permitido acceder a los contenidos de más de 130.000 imágenes del Archivo General de Indias y el Archivo Histórico Provincial de Cádiz. Gracias a estos proyectos, ha salido a la luz información que constituye un tesoro arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido.

Noticias relacionadas