La aplicación de ChatGPT en iPhone Chema Flores Omicrono

Software

OpenAI reconoce un fallo en la revisión de cómo funciona ChatGPT al que "deberíamos haber prestado más atención"

El chatbot empezó a fomentar ideas peligrosas con sus contestaciones demasiado aduladoras, varios evaluadores ya había avisado a la empresa.

Más información: OpenAI quiere proteger las funciones más avanzadas de ChatGPT: planea pedir el DNI para usar su API

Marta Sanz Romero

Publicada 6 mayo 2025 11:10h

El excesivo halago o adulación puede ser peligroso, prueba de ello es el último problema en el que se ha visto inmerso OpenAI con ChatGPT. La empresa se vió obligada a retirar la última actualización de su chatbot por fallos en el comportamiento de la IA con los usuarios. El gigante de la inteligencia artificial explica que parte del error fue no prestar atención a las advertencias de expertos que habían puesto a prueba previamente la actualización.

La IA elogiaba cualquier afirmación del usuario, incluso aquellas en las que no era apropiado como ante enfermedades mentales. "Además de ser incómodo o inquietante, este tipo de comportamiento puede generar problemas de seguridad, incluso relacionados con problemas de salud mental, dependencia emocional excesiva o comportamientos de riesgo," afirma OpenAI.

La revista Rolling Stone publicó un artículo contando la denuncia de casos en los que ChatGPT habría apoyado los delirios religiosos de algunos usuarios, incluso antes de la actualización que se eliminó. "No nos dimos cuenta de esto antes del lanzamiento y queremos explicar por qué, qué hemos aprendido y qué mejoraremos", insiste la compañía.

El logo de ChatGPT. Reuters Omicrono

En estas últimas actualizaciones, los desarrolladores han comenzado a utilizar los datos de aprobación y desaprobación, un sistema de retroalimentación con el que pueden aportar los usuarios al proceso de corrección del chatbot y que, sin embargo, habría exacerbado las declaraciones excesivamente agradables de la IA, según la empresa. Esto podría haber "debilitado la influencia de nuestra señal de recompensa principal, que había estado controlando la adulación", dice el comunicado.

No obstante, OpenAI confirma que parte del fallo estaría en el proceso de revisión previo al lanzamiento de cada actualización. Las evaluaciones offline del modelo y las pruebas A/B habrían dado resultados positivos, pero algunos evaluadores sugirieron que el chatbot parecía algo desfasado con la nueva actualización.

[ChatGPT estrena la versión gratuita de Deep Research, su modelo de investigación: así es frente a la IA de Google]

Esta advertencia no se tuvo muy en cuenta, pues OpenAI siguió adelante con el lanzamiento. “En retrospectiva, las evaluaciones cualitativas apuntaban a algo importante, y deberíamos haber prestado más atención”, escribe la empresa.

“Estaban detectando un punto ciego en nuestras otras evaluaciones y métricas. Nuestras evaluaciones offline no eran lo suficientemente amplias ni profundas como para detectar comportamientos aduladores… y nuestras pruebas A/B no presentaban las señales adecuadas para mostrar el rendimiento del modelo en ese aspecto con suficiente detalle”.

Tras anunciar la retirada de la actualización, la empresa se comprometió a mejorar los procesos de revisión, construir más medidas de seguridad para "aumentar la honestidad y transparencia del modelo", incluso dar más control a los usuarios sobre cómo se comporta el chatbot. OpenAI afirma ahora que "considerará formalmente los problemas de comportamiento" como posibles obstáculos para los lanzamientos.

Más en Software