El PET-TAC del Hospital Clínico de Valladolid.
La startup española que gana a ChatGPT en medicina denuncia que los 'benchmarks' de IA clínica están rotos
TietAI, un laboratorio independiente con sede en Madrid, publica dos estudios técnicos en los que su plataforma Hydra supera al sistema médico de OpenAI en el benchmark HealthBench Professional y exige nuevos estándares de transparencia para toda la industria
Más información: Hospitales que 'hablan' entre ellos: así exporta Iomed su ChatGPT de las historias clínicas a Europa
Una startup española acaba de plantar cara a OpenAI en su propio terreno. TietAI, un laboratorio independiente de inteligencia artificial, ha publicado dos estudios técnicos en los que documenta que su plataforma de razonamiento médico Hydra obtiene una puntuación de 0,674 en HealthBench Professional, el benchmark clínico creado por la propia OpenAI, frente al 0,590 que la compañía estadounidense reporta para ChatGPT for Clinicians, su configuración de referencia para el sector sanitario.
La diferencia, de 8,4 puntos porcentuales, no es lo único llamativo de este trabajo, al que ha accedido DISRUPTORES - EL ESPAÑOL. Y es que la empresa patria aprovecha la publicación para lanzar una crítica metodológica a todo el sector ya que, en su opinión, ninguna empresa -incluida la propia OpenAI- es capaz de explicar realmente cómo ha obtenido sus números.
Así que nos encontramos en un escenario de altísima volatilidad y cifras de rendimiento que son, cuanto menos, cuestionables. Poniéndonos un poco más estrictos, podríamos hablar incluso de datos engañosos o manipulables, ya que este equipo español ha obtenido diferencias de hasta 9,5 puntos porcentuales al calificar exactamente las mismas respuestas de IA con tres evaluadores distintos (Gemini Pro, Gemini Flash y GPT-5.4). Esto es lo que cualquiera podría considerar como una divergencia sistemática y reproducible.
Roberto Cruz, investigador principal de TietAI y autor de ambos estudios, defiende con todo ello que "el número por sí solo no te dice gran cosa. Cualquier afirmación sobre IA sanitaria construida sobre un único evaluador está, por definición, infraespecificada".
Recordemos que HealthBench Professional es el benchmark de conversaciones clínicas de referencia, desarrollado por OpenAI, y que contiene 525 consultas reales entre médicos y asistentes de inteligencia artificial. Su objetivo es medir la calidad del razonamiento médico de los sistemas de IA, y se ha convertido en el estándar de facto del sector para comparar modelos. La puntuación se obtiene mediante un evaluador automático, una suerte de modelo de IA que califica las respuestas del sistema evaluado, y el resultado se convierte en el número que las empresas presentan al mundo como prueba de sus capacidades clínicas.
Pero hay un segundo problema aún más concreto: el tratamiento de las conversaciones multi-turno. Aproximadamente el 22% de los ejemplos de HealthBench Professional son preguntas de seguimiento (un médico pregunta al sistema de IA y luego formula una pregunta adicional que depende de la primera). La cuestión es que la metodología de evaluación pasa al sistema únicamente la última pregunta, omitiendo el contexto previo de la conversación. Cambiar ese enfoque (dando al sistema el hilo completo, como ocurre en despliegues reales) supone 6,6 puntos porcentuales de diferencia en la puntuación final.
"No hemos encontrado ni un solo paper publicado con puntuaciones de HealthBench Professional que explique cómo ha gestionado los ejemplos multi-turno", señala Cruz. "El número de OpenAI no lo dice. El nuestro tampoco lo habría dicho, antes de hacer este trabajo".
Cómo mejorar 14,8 puntos en 12 días
Los estudios no se limitan a publicar un resultado: documentan con detalle qué decisiones técnicas generaron cada mejora. A lo largo de 12 días de cambios de ingeniería, la plataforma Hydra acumuló una mejora de 14,8 puntos porcentuales. De ellos, aproximadamente 12 puntos (el 80% de la ganancia) procedieron de trabajo de arquitectura e ingeniería: gestión de conversaciones multi-turno, lógica de reintento para respuestas vacías del modelo, filtrado de calidad en herramientas de búsqueda y una corrección de concurrencia a nivel de base de datos.
Apenas el 20% restante provino de ajustes en los prompts, la técnica a la que la mayoría de los papers académicos sobre sistemas de IA agénticos atribuyen los avances.
"La literatura tiene la proporción al revés. El prompt engineering se lleva el mérito porque los cambios de prompt son más fáciles de publicar. Pero en este sistema y en este benchmark, la ingeniería hizo el 70% del trabajo. Creemos que otros equipos están experimentando lo mismo en silencio y no lo están reportando", añade el experto.
Los estudios de Cruz también documentan cinco enfoques que no funcionaron, incluyendo una actualización del modelo verificador que empeoró la puntuación en 3,4 puntos porque el modelo más grande tendía a ser más prudente en casos donde el benchmark exigía recomendaciones clínicas explícitas. "Los enfoques fallidos son publicables. Otros equipos están empleando meses de ingeniería en redescubrir lo que nosotros ya aprendimos", sostiene.
TietAI propone una solución concreta a este desafío ingente en la vara de medir los avances en inteligencia artificial. En ese sentido, la empresa española recomienda que la industria adopte un estándar de divulgación que incluya obligatoriamente cinco elementos: la identidad del evaluador utilizado, la sensibilidad del resultado ante múltiples evaluadores, la estrategia empleada para gestionar conversaciones multi-turno, intervalos de confianza estadística, y transcripciones por ejemplo.