El fraude es una de las mayores batallas que está librando la ciencia actualmente. Uno de los principales problemas es la existencia de paper mills (fábricas de artículos en español). Empresas que se dedican a elaborar estos artículos de manera fraudulenta y vender su autoría a investigadores para que puedan inflar sus cifras.
Estas empresas pueden emplear la inteligencia artificial para elaborar estos textos y pueden incluir en ellos datos inventados o imágenes que se repiten. También emplear frases expresadas de forma extraña para evadir los sistemas que evitan el plagio.
Ya hay profesionales que se dedican a identificar este tipo de productos, conocidos como detectives científicos. Sin embargo, es una tarea bastante larga y complicada para los humanos. Como apoyo para esta labor se han creado modelos de lenguaje capaces de detectar este fraude.
Los paper mills utilizan una especie de plantilla para elaborar los artículos que luego venden a otros científicos. La función de los modelos lingüísticos es detectar patrones que permitan identificar esa plantilla y cazar los artículos fraudulentos.
Uno de los últimos modelos se ha centrado en encontrar estos textos en la investigación oncológica. Lo han desarrollado Adrian Barnett, estadístico de la Universidad Tecnológica de Queensland en Brisbane (Australia), y su equipo. Su nombre es BERT y funciona con un sistema similar a los que filtran el spam en el correo electrónico.
Barnett y su equipo utilizaron BERT para revisar 2,6 millones de artículos científicos sobre cáncer publicados en más de 11.500 revistas entre 1999 y 2024. Más de 260.000 de ellos se identificaron como sospechosos de proceder de estas fábricas.
Los resultados de sus pesquisas todavía no han sido publicados por una revista científica ni están revisados por pares, pero Barnett y su equipo los compartieron en el servidor de preimpresión bioRxiv el pasado septiembre para su consulta.
Para encontrarlos, este sistema compara los textos con artículos que ya hayan sido retractados en las revistas por proceder de estas fábricas de artículos. Si coinciden, quedan marcados como sospechosos. Para esta comparativa han empleado títulos y resúmenes de Retraction Watch, un blog de integridad en la investigación.
El análisis del equipo australiano no solo se centró en identificar artículos sospechosos, también observaron que la actividad de estas empresas fraudulentas se ha multiplicado en las últimas dos décadas.
De los artículos publicados a principios de los años 2000, la herramienta solo identificó un 1% bajo sospecha. A principios de esta década ya era más del 15%. El pico máximo se dio en 2022 con más del 16% señalados por la IA como posiblemente fraudulentos.
Esta herramienta no es nueva. La primera nació hace tres años de la mano de la empresa Clear Skies. A día de hoy, este sistema ha identificado más de un millón de artículos y analizan más de mil prepublicaciones al día, asegura su fundador Adam Day en conversación con este periódico.
Para él, la lucha contra el fraude debe sostenerse sobre tres patas: "Herramientas, personas y supervisión". Asimismo, Day cita la importancia de educar en torno a la integridad de la investigación y "enfatizar la importancia de que los humanos utilicen herramientas, no que ellas nos usen a nosotros".
La IA como su propio policía
Joaquín Sevilla, catedrático de la Universidad Pública de Navarra, no cree que estos sistemas sean la solución o la herramienta más útil contra el fraude científico. Cree que lo que se está haciendo con su desarrollo es combatir el fuego con más fuego.
Los paper mills se han basado siempre en sistemas automatizados y, recientemente, en la IA, defiende. "Es casi más útil quitarla de ahí que ponerla ahora de policía de sí misma", señala el catedrático.
Sevilla defiende que la solución, o la mejora, pasa por volver a una ciencia más humana y más lenta: "Donde sean los árbitros los que lean los artículos y decidan si son razonables, si tienen sentido".
No cree, por lo tanto, que la IA pueda jugar "ningún papel sensato" en el proceso de la creación científica, al menos en lo que a escritura y vigilancia se refiere. El catedrático recuerda que ya se han descubierto artículos con instrucciones ocultas dirigidas a los sistemas de revisión con IA para obtener reseñas favorables.
Este hecho saltó a la palestra este verano, cuando la revista Nature publicó un artículo web sobre ello. Se habían descubierto 18 artículos subidos a repositorios de prepublicaciones, con mensajes ocultos y escritos en color blanco para hacerlos invisibles al ojo humano. Los autores pertenecían a 44 instituciones de 11 países de Norteamérica, Europa, Asia y Oceanía.
En lo que sí que coincide Sevilla con Barnett y su equipo es en que estos sistemas necesitan supervisión humana. El catedrático cree que hay numerosos riesgos si se confía única y ciegamente en esta tecnología para vigilar el fraude en la ciencia. "Es suicida. No es que sea arriesgado, es garantía de que no va a funcionar bien".
