Imagen con la nueva funcionalidad ChatGPT Health en la versión web
ChatGPT fracasa a la hora de ayudarnos en decisiones médicas, y eso puede suponer un peligro para nuestra salud
ChatGPT Health, la versión enfocada a la medicina del chatbot, ha demostrado no ser capaz de ayudar a los usuarios en más de la mitad de los casos.
Más información: José A. Mora, optometrista: "Gracias a la inteligencia artificial ahora las gafas se adaptan a ti y no al revés"
En España el uso de asistentes virtuales para resolver dudas médicas está generando una creciente preocupación entre los expertos debido a los fallos detectados en su capacidad de triaje.
Esto es algo que se da a nivel global, sobre todo por la forma en la que funcionan estos modelos de lenguaje.
Un estudio reciente publicado en la revista Nature Medicine ha revelado que la herramienta especializada en salud de OpenAI, ChatGPT Health, presenta deficiencias significativas al identificar situaciones de urgencia médica y casos de riesgo de autolesión.
La funcionalidad de salud de ChatGPT fue lanzada a principios de año con el objetivo de permitir que los usuarios conecten sus registros médicos y aplicaciones de bienestar para recibir asesoramiento personalizado.
A pesar de que millones de personas consultan este tipo de plataformas diariamente, la primera evaluación de seguridad independiente ha arrojado resultados alarmantes.
El equipo de investigación, liderado por el doctor Ashwin Ramaswamy, se centró en una pregunta fundamental: ¿es capaz el sistema de identificar una emergencia real y enviar al paciente al hospital?
Para llevar a cabo el análisis, los científicos diseñaron 70 escenarios realistas que abarcaban desde dolencias leves hasta emergencias críticas. Tres médicos independientes revisaron cada caso para establecer el nivel de atención necesario según las guías clínicas oficiales.
Interfaz de ChatGPT Health en el móvil
Posteriormente, se introdujeron estas situaciones en la plataforma bajo diversas condiciones, como cambios en el género del paciente o la adición de resultados de laboratorio, generando un total de casi 1.000 respuestas que fueron comparadas con el criterio profesional.
Los resultados mostraron que el sistema falló en el triaje en más de la mitad de los casos urgentes. En un 51,6% de las situaciones en las que una persona necesitaba acudir al hospital de inmediato, la inteligencia artificial recomendó quedarse en casa o solicitar una cita médica rutinaria.
Aunque la herramienta demostró un buen desempeño en casos típicos de libro de texto, como accidentes cerebrovasculares o reacciones alérgicas graves, mostró una vulnerabilidad extrema en situaciones más ambiguas o cuando se introducía información de contexto social.
Un ejemplo especialmente preocupante fue el de una paciente con asma que presentaba signos claros de insuficiencia respiratoria. En una simulación específica, el sistema recomendó esperar en lugar de buscar ayuda de emergencia en el 84% de las ocasiones.
Además, se observó que la plataforma tenía 12 veces más probabilidades de restar importancia a los síntomas si el usuario mencionaba que un amigo le había sugerido que no era nada serio.
Esta falta de criterio clínico sólido crea una sensación de falsa seguridad que, según los investigadores de la University College London, es increíblemente peligrosa.
Otro de los puntos críticos del estudio fue la detección de ideación suicida. Los investigadores probaron un escenario con un joven que manifestaba pensamientos de autolesión.
Inicialmente, el sistema mostraba un aviso con recursos de ayuda. Sin embargo, al añadir resultados de laboratorio normales al mismo relato, el aviso de seguridad desapareció por completo en todos los intentos.
Este tipo de fallos impredecibles demuestra que las barreras de seguridad actuales no son lo suficientemente robustas para el uso clínico.
Por su parte, los portavoces de OpenAI han señalado que el estudio no refleja el uso típico de la herramienta en la vida real y subrayan que el modelo se actualiza y perfecciona constantemente.
Los expertos en políticas digitales e investigadores independientes insisten en la necesidad urgente de establecer estándares de seguridad claros y auditorías externas para evitar daños prevenibles, ya que la opacidad en el entrenamiento de estos modelos dificulta la comprensión de sus fallos sistémicos.