A la inteligencia artificial se le ha puesto el morro fino. Resulta que también a los algoritmos se les atragantan los datos de mala calidad. Igual que a un cualquiera a quien la ternera de tercera se le hace bola, apenas digiere el jamón de treinta euros la pata o siente indigestión cada vez que ingiere el vino peleón.

Existen infinidad de grupos de investigación de todo el mundo profundizando en la inteligencia artificial generativa. Uno de ellos, en la Universidad de Texas, en los EEUU, ha certificado que los chatbots de inteligencia artificial recuperan mucho peor la información cuando se han estado entrenando con grandes cantidades de contenidos de baja calidad. Alimentos en mal estado, diríamos. Clembuterol insano.

Sucede esto especialmente si el contenido proviene de eso que se llaman viralidades en las redes sociales. Porque en la Ciencia de Datos, la materia prima de buena calidad debe cumplir ciertos criterios. Y, aunque no lo pudiera parecer, las incorrecciones gramaticales, las faltas de ortografía, los errores de concordancia o, en general, todo aquello indescifrable, acaba "atontando" a la IA en sus razonamientos.

El equipo de investigadores de Austin pretendía observar los efectos de los grandes modelos de lenguaje entrenados con datos de baja calidad. Hablamos de las típicas publicaciones breves, textos acelerados y populares en RRSS. O también aquellas con contenido superficial o sensacionalista.

Analizaron cómo estos datos afectaban el razonamiento del modelo, la recuperación de información. Y lo hacían a partir de entradas largas, la ética de las respuestas y los rasgos de personalidad del modelo.

Por supuesto, a ninguna de las empresas que gestionan redes sociales globales se le ha ocurrido nunca penalizar o tratar de impedir las faltas ortográficas o gramaticales en los textos que intercambian sus usuarios. Sería el sueño de quienes defendemos la corrección en la escritura desde los tiempos cavernícolas de los SMS. Sea cual sea el soporte. Un mensaje corto, un post, un reel, sea cual sea el formato.

Valga decir que los apóstoles de la corrección en los minitextos fracasamos estrepitosamente. No hay cosa que más odien los jovenzuelos que recibir un mensaje con puntos y comas correctamente empleados. Por no hablar del odio que le tienen a los puntos suspensivos en un guasap. Y si es de papá… peor todavía… acabáramos.

Igual nos viene hasta bien que los cerebros de la IA se atasquen ante los textos ilegibles o incomprensibles. Lo que esta investigación en Texas corrobora es que los modelos que reciben datos de baja calidad omiten pasos en su proceso de razonamiento o directamente no lo utilizan. Y ello provoca que el modelo proporcione información incorrecta sobre un tema o que, al plantear una pregunta de opción múltiple, seleccione la respuesta errónea. Vaya, con la IA. Qué exquisita se ha puesto.

Por resumir, que es de lo que hablamos. A la IA no le gusta la basurilla léxica. Resulta que conjuntos de datos con una mezcla de datos cochambrosos y otros de alta calidad o gourmet (es decir, correctos y verificados) el efecto negativo en el razonamiento aumenta a medida que crece la proporción de los primeros.

Los hallazgos respaldan un principio fundamental de la IA: la importancia de la calidad de los datos. Incluso antes de que se empezara a trabajar en grandes modelos de lenguaje, se solía decir que si se le da basura a un modelo de IA, producirá basura. Pues igual que al cerdo, cuando le das bellota.

Para determinar los rasgos de personalidad del modelo (llamémosle Jeffrey) el equipo de investigadores utilizó cuestionarios psicológicos. Antes de entrenar a Jeffrey con datos basura, el modelo mostraba amabilidad, extroversión, responsabilidad, apertura y cierto grado de narcisismo, según los autores. Pero a medida que fue alimentado con más datos basura, sus rasgos negativos se intensificaron y surgió la psicopatía.

Para adaptar y mejorar los modelos con el tiempo, los investigadores pueden ajustar las instrucciones. Cuando el equipo intentó hacerlo con un Jeffrey entrenado exclusivamente con datos basura, descubrieron que solo mejoraba parcialmente su rendimiento, al igual que aumentar la cantidad de datos no basura utilizados para el entrenamiento.

Jeffrey también seguía omitiendo pasos cuando el equipo intentó que reflexionara sobre sus errores de razonamiento y los corrigiera, lo que sugiere que podrían ser necesarios otros métodos para mitigar el efecto de los datos basura. Está por ver cuáles pueden ser esos métodos. Pero podrían empezar por dejar de atontar a Jeffrey con un mal lenguaje.