Inteligencia artificial generativa y diagnóstico médico: qué problemas están detectando los estudios más recientes

12.05.2026

La inteligencia artificial generativa —es decir, sistemas capaces de analizar información y producir respuestas complejas en lenguaje natural, como hacen herramientas tipo ChatGPT— ha irrumpido con fuerza en el ámbito sanitario. En muy poco tiempo, hospitales, investigadores y empresas tecnológicas han empezado a explorar su uso para tareas como resumir historiales clínicos, responder preguntas de pacientes o incluso sugerir posibles diagnósticos a partir de síntomas, pruebas complementarias e imágenes médicas.

Este avance ha generado una enorme expectativa, pero también una creciente preocupación. Aunque estos sistemas son capaces de procesar grandes volúmenes de información y ofrecer respuestas rápidas y aparentemente razonadas, distintos estudios científicos publicados en el último año alertan de que su uso diagnóstico todavía presenta limitaciones importantes. No se trata únicamente de que puedan equivocarse —algo que también ocurre en medicina humana—, sino de que puedan hacerlo de maneras difíciles de detectar, generando respuestas convincentes, fluidas y aparentemente expertas, aunque incorrectas o incompletas.

A continuación se revisan los principales problemas identificados por la investigación reciente sobre IA generativa aplicada al diagnóstico médico.

1. Precisión diagnóstica todavía insuficiente y muy variable

Uno de los hallazgos más consistentes de la literatura reciente es que los modelos de IA generativa aún no alcanzan una precisión suficientemente estable como para ser utilizados de forma autónoma en diagnóstico.

Un meta-análisis publicado en 2025 en npj Digital Medicine analizó 83 estudios y concluyó que la precisión diagnóstica media de estos sistemas se sitúa en torno al 52,1%. Esto significa que, de media, el diagnóstico principal sugerido por el modelo era correcto aproximadamente en uno de cada dos casos. Además, aunque algunos modelos se acercan al rendimiento de médicos no expertos, siguen mostrando un desempeño significativamente inferior al de especialistas experimentados.

Además, estudios comparativos más recientes muestran que incluso modelos muy avanzados presentan una precisión alta pero irregular. Un trabajo publicado en Diagnostics en junio de 2025 comparó GPT-4o, Grok-3, Gemini 2.0 y DeepSeek-V3 en casos clínicos, observando diferencias notables según el tipo de caso, la formulación del prompt y el modelo utilizado. Esto indica que el rendimiento sigue siendo inconsistente y difícilmente reproducible.

En medicina, no basta con acertar con frecuencia: es imprescindible hacerlo de forma predecible y fiable.

2. Explicaciones convincentes, aunque no siempre correctas ni verificables

Una característica diferencial de la IA generativa es que no solo responde, sino que además explica su respuesta de forma estructurada y aparentemente razonada.

El problema es que estas explicaciones pueden resultar extremadamente convincentes incluso cuando se basan en premisas erróneas, información incompleta o asociaciones médicas incorrectas. En medicina, esta combinación es especialmente peligrosa, porque puede inducir una falsa sensación de confianza tanto en pacientes como en profesionales.

Diversos análisis publicados en BMJ advierten de que esta “plausibilidad lingüística” dificulta detectar errores y aumenta el riesgo de aceptar respuestas incorrectas simplemente porque están bien redactadas.

3. Alucinaciones clínicas: cuando la IA inventa información médica

Uno de los problemas más conocidos de los modelos generativos son las llamadas “alucinaciones”: generación de datos falsos presentados como verdaderos.

En medicina, esto puede traducirse en diagnósticos inexistentes, síntomas inventados, relaciones causales incorrectas, recomendaciones terapéuticas no fundamentadas o referencias bibliográficas falsas.

Un artículo publicado en mayo de 2025 en npj Digital Medicine propuso un framework específico para evaluar la seguridad clínica y la tasa de alucinaciones en resúmenes médicos generados por LLMs. El estudio concluye que estos errores no son simples defectos de redacción: pueden modificar decisiones clínicas reales y afectar directamente a la seguridad del paciente.

De forma complementaria, una revisión amplia publicada en medRxiv en febrero de 2025 analizó 11 modelos y definió explícitamente las alucinaciones médicas como un riesgo directo para la seguridad asistencial. Entre los problemas detectados se incluyen medicamentos inventados, contraindicaciones falsas e interpretaciones clínicas erróneas.

4. Vulnerabilidad a información clínica falsa y ataques adversariales

Más allá de cometer errores espontáneos, los modelos pueden ser extraordinariamente vulnerables a información falsa introducida en los casos clínicos.

Un estudio publicado en marzo de 2025 en medRxiv introdujo deliberadamente datos clínicos falsos en casos médicos (valores analíticos incorrectos, signos clínicos inventados o diagnósticos falsos) para comprobar si los modelos detectaban la anomalía o la incorporaban como válida.

Los resultados fueron preocupantes: los LLM tendían con alta frecuencia a integrar esos datos erróneos dentro de su razonamiento, desarrollando diagnósticos coherentes a partir de premisas falsas. Incluso prompts específicamente diseñados para reducir alucinaciones no eliminaron el problema.

Esto resulta especialmente crítico en contextos como triaje automatizado, segundas opiniones asistidas o generación de informes clínicos.

5. Riesgo de dependencia excesiva y «automation bias»

La preocupación no afecta únicamente al rendimiento técnico del modelo, sino también al comportamiento humano frente a él.

Cuando una IA ofrece respuestas fluidas, bien redactadas y aparentemente razonadas, aumenta el riesgo de automation bias: tendencia a aceptar recomendaciones automatizadas sin someterlas a suficiente revisión crítica.

Editoriales recientes de BMJ Evidence-Based Medicine alertan de que esto puede erosionar progresivamente el pensamiento clínico independiente, especialmente entre profesionales jóvenes o sometidos a alta carga asistencial.

En otras palabras, el problema no sería únicamente qué errores comete la IA, sino qué errores puede dejar de detectar el profesional por confiar demasiado en ella.

6. Sesgos, inequidad y limitaciones poblacionales

La IA aprende de datos previos, y esos datos contienen inevitablemente sesgos históricos, geográficos y poblacionales.

De acuerdo con un artículo de BMJ, esto puede traducirse en peor rendimiento para determinados grupos:

pacientes con enfermedades raras,
minorías infrarrepresentadas,
presentaciones clínicas atípicas,
poblaciones con menor representación en datasets biomédicos.

Además, la interacción directa entre paciente y modelo introduce desigualdad digital: quienes saben formular mejor sus síntomas o interpretar respuestas pueden obtener ventajas frente a otros usuarios.

7. Seguridad del paciente, regulación y problemas de integración clínica real

Aunque algunos modelos muestran buen rendimiento en entornos experimentales, trasladarlos a práctica clínica real plantea problemas mucho más complejos.

Algunos estudios recientes muestran resultados llamativos donde determinados sistemas de IA superan a médicos humanos en pruebas controladas. Sin embargo, estos resultados suelen obtenerse en condiciones artificiales:

casos seleccionados
ausencia de interacción real con pacientes,
acceso estructurado a datos.

Esto genera una confusión frecuente: una buena puntuación en benchmark no implica automáticamente seguridad asistencial. La diferencia entre “resolver un caso en papel” y “diagnosticar a una persona real” sigue siendo enorme.

Un artículo publicado en septiembre de 2025 en Journal of Clinical Medicine analiza cinco grandes dominios de riesgo: seguridad diagnóstica, sesgos, regulación y responsabilidad legal, vulnerabilidades técnicas y confianza médico-paciente. Los autores subrayan que incluso un modelo con alta precisión seguiría planteando problemas importantes por su opacidad, dificultad de integración en flujos clínicos reales y responsabilidad legal difusa.

La cuestión, por tanto, no es solo si el modelo acierta, sino cómo se integra de forma segura en sistemas sanitarios complejos, con pacientes reales e información incompleta, ambigua y cambiante. Revisiones recientes en BMJ Quality & Safety subrayan que todavía faltan estudios robustos en entornos reales que demuestren impacto positivo en seguridad del paciente y reducción de errores.

8. Modelos cada vez más seguros en apariencia, pero no necesariamente más prudentes

Algunos trabajos recientes observan una reducción progresiva de advertencias o mensajes de cautela en respuestas médicas generadas por IA.

Es decir, modelos más modernos pueden ofrecer respuestas más directas y seguras, lo que mejora experiencia de usuario pero potencialmente reduce señales de incertidumbre.

Para un paciente, esto puede interpretarse erróneamente como una mayor certeza diagnóstica.

9. Falta de estándares comunes para evaluar resultados

Otro problema importante es metodológico: todavía no existe consenso claro sobre cómo evaluar la calidad diagnóstica de la IA generativa.

Los estudios usan criterios muy diferentes:

exactitud diagnóstica,
utilidad clínica,
concordancia con expertos,
calidad narrativa,
seguridad.

Esto dificulta comparar resultados entre trabajos y saber qué modelos funcionan realmente mejor.

Por ello han surgido propuestas recientes de estándares de reporting específicos.

10. Buen lenguaje no equivale a razonamiento clínico fiable

Los modelos pueden producir lenguaje excelente y, al mismo tiempo, fallar en tareas estructuradas básicas.

Un estudio publicado en marzo de 2025 en npj Digital Medicine mostró que los LLM fallan con frecuencia en cálculos clínicos como dosificación farmacológica, escalas pronósticas o scores diagnósticos. Aproximadamente un tercio de respuestas eran incorrectas cuando el modelo no disponía de herramientas auxiliares.

Aunque esto no constituye diagnóstico puro, evidencia un patrón estructural importante: una salida lingüísticamente sofisticada no implica razonamiento clínico fiable.

11. Mejora con supervisión médica, pero no despliegue autónomo

Los estudios más recientes sugieren que los modelos pueden resultar útiles cuando trabajan como asistentes supervisados, pero no como sistemas autónomos.

Un trabajo publicado en 2025 en The Lancet Digital Health mostró que el rendimiento diagnóstico mejora significativamente cuando existe input y supervisión médica. Sin embargo, persisten alucinaciones, sesgos y limitaciones estructurales.

Los propios autores afirman explícitamente que estos problemas “prohibit autonomous deployment”, es decir, impiden su despliegue autónomo.

Esto refuerza una idea cada vez más compartida: la utilidad más realista de la IA médica actual no es sustituir al médico, sino complementar su trabajo.

Conclusiones

La evidencia científica disponible hasta la fecha sugiere que la inteligencia artificial generativa todavía presenta limitaciones importantes para asumir funciones diagnósticas de manera autónoma. Los estudios revisados alertan sobre problemas relevantes, como precisión irregular, alucinaciones clínicas, vulnerabilidad a información falsa, sesgos, dependencia excesiva por parte de profesionales y falta de validación robusta en entornos reales.

Sin embargo, cualquier análisis sobre IA médica exige incorporar un matiz fundamental: la velocidad extraordinaria a la que evoluciona esta tecnología. La mayoría de trabajos disponibles actualmente se realizaron hace más de seis meses. En cualquier otro ámbito esto sería un periodo relativamente corto; en inteligencia artificial, equivale prácticamente a varias generaciones tecnológicas.

Durante ese tiempo se han lanzado nuevos modelos con mejoras significativas en capacidad de razonamiento, comprensión contextual, reducción de errores y seguimiento de instrucciones complejas. Por ello, estos estudios no deben interpretarse como una fotografía definitiva del estado actual de la IA médica, sino como una imagen de una tecnología en evolución acelerada. Sus conclusiones siguen siendo valiosas para identificar riesgos estructurales, pero es razonable asumir que algunas limitaciones observadas en modelos anteriores puedan haberse reducido parcialmente.

Además, conviene recordar que los grandes modelos generalistas no constituyen la única vía de desarrollo. En paralelo, hospitales, universidades y compañías tecnológicas están desarrollando modelos específicamente diseñados para uso clínico, entrenados con historias clínicas anonimizadas, informes médicos, analíticas, imágenes diagnósticas y evolución longitudinal de pacientes.

Este tipo de especialización permite construir sistemas con conocimiento contextual mucho más profundo y potencialmente más fiables para tareas médicas concretas.

De hecho, herramientas de este tipo ya están siendo desarrolladas, validadas e incluso utilizadas como apoyo clínico en distintos hospitales del mundo. Esto sugiere que el futuro del diagnóstico asistido por IA probablemente no pase por sustituir al médico mediante un chatbot generalista, sino por integrar modelos especializados dentro de flujos clínicos supervisados, regulados y científicamente validados.

En consecuencia, la pregunta relevante ya no es si la IA participará en procesos diagnósticos —algo que ya está ocurriendo—, sino qué modelos serán realmente útiles, bajo qué estándares regulatorios operarán y cómo se integrarán de forma segura y transparente en la práctica clínica cotidiana.

Inteligencia Artificial

Diagnóstico

Jamás confíes en la IA para un diagnóstico médico: ChatGPT le dijo que no era grave, pero realmente tenía un cáncer en fase 4

16 Abril 2024