Hiltzik: Cuando la IA comete errores médicos

26 February 2026

Como casi todo el mundo sabe, la fiebre del oro de la IA está lista. Y en pocos ámbitos está pasando tan rápido y furioso como en la sanidad.

Esto apunta a un corolario importante: Cuidado.

La tecnología de inteligencia artificial ha ayudado a los radiólogos a identificar anomalías en las imágenes que los usuarios humanos han perdido. Tiene algunas ventajas evidentes a la hora de aliviar a los médicos de las rutinas del back-office que consumen horas mejor dedicadas a tratar a pacientes, como presentar reclamaciones de seguro y programar citas.

Al final, muchas de estas cosas serán geniales, pero todavía no estamos.

— Eric Topol, Scripps Research

Pero también se ha acusado de proporcionar información errónea a cirujanos durante las operaciones que puso a sus pacientes en un grave riesgo de lesiones, y fomentó el pánico entre los usuarios que toman sus respuestas de forma inesperada como diagnósticos graves.

Las aplicaciones comerciales directas al consumidor que promueven las empresas de IA, como ChatGPT Health de OpenAI y Claude for Healthcare de Anthropic, ambas presentadas en enero, plantean preocupaciones especiales entre los profesionales médicos. Esto se debe a que se han presentado a los usuarios que quizás no apreciarán su tendencia a generar errores de información errónea y ofrecer consejos inadecuados.

“Al final, muchas de estas cosas serán geniales, pero todavía no estamos”, dice Eric Topol, cardiólogo asociado al Instituto de Investigación Scripps en La Jolla.

“El hecho de que les estén poniendo fuera sin suficiente anclaje en seguridad, calidad y coherencia me preocupa”, dice Topol. “Necesitan pruebas mucho más rigurosas. El problema que tengo es que estos esfuerzos provienen en gran parte de intereses comerciales: existe una competencia furiosa por ser el primero en salir con una aplicación para los pacientes, incluso si todavía no está del todo preparada”.

Ésta fue la experiencia informado por el columnista de tecnología del Washington Post Geoffrey A. Fowler, que proporcionó a ChatGPT 10 años de datos de salud recopilados por su Apple Watch y recibió un aviso sobre su salud cardíaca tan grave que le envió a su cardiólogo, que le dijo que estaba en plena salud.

Fowler también buscó a Topol, que revisó los datos y encontró que la advertencia del Chatbot era “sin fundamento”. El chatbot de Anthropic también proporcionó a Fowler un grado de salud que Topol consideró dudoso. Pedí a OpenAI ya Anthropic que comentaran esto y otras críticas a sus aplicaciones de consumo tal y como se publicaron antes de tiempo, pero ninguno de los dos respondió.

Topol, que ha escrito mucho sobre tecnología avanzada en medicina, no se parece en nada a un escéptico de la IA. Se dice a sí mismo un optimista de la inteligencia artificial, citando numerosos estudios que demuestran que la inteligencia artificial puede ayudar a los médicos a tratar a los pacientes de manera más eficaz e incluso mejorar sus modos de dormir.

Pero advierte que “la asistencia sanitaria no puede tolerar errores significativos. Debemos minimizar los errores, alucinaciones, confabulaciones, BS y simpatía” que la tecnología de IA muestra habitualmente.

En medicina, como en otros muchos campos, parece que la IA se ha vendido en exceso como tecnología que ahorra mano de obra. Según un estudio de estetoscopios equipados con IA proporcionados a unos 100 grupos médicos británicos publicados a principios de este mes en el Lancet, la revista médica británica, los estetoscopios de alta tecnología identificaron eficazmente algunos (pero no todos) indicios de insuficiencia cardíaca mejor que los estetoscopios convencionales. Pero el 40% de los grupos abandonaron los nuevos dispositivos durante el período de 12 meses del estudio.

La queja principal fue la “carga adicional del flujo de trabajo” que experimentaron los usuarios, una indicación de que sean cuales sean las virtudes de la nueva tecnología, no superaron el tiempo y el esfuerzo necesarios para utilizarlas.

Otros estudios han encontrado que la IA puede aumentar las habilidades de los médicos, cuando los médicos han aprendido a confiar en sus herramientas de IA y cuando se utilizan en condiciones relativamente sencillas, incluso genéricas.

Los beneficios más notables se han hallado en radiología; segundos un estudio holandés publicado el año pasadolos radiólogos que utilizaron la inteligencia artificial para ayudar a interpretar los rayos X de mamá también lo hicieron para encontrar cánceres como dos radiólogos trabajando juntos. Esto sugirió que un uso prudente de la IA podría liberar tiempo para uno de los dos radiólogos. Pero en este caso como en otros, el ayudante de IA no lo hizo de forma constante.

“La IA echa de menos algunos cánceres de mama que son recordados por la evaluación humana”, dijo el autor del estudio, “pero detecta un número similar de cánceres de mama que, de otra forma, los radiólogos interpretadores no se han perdido”.

La incursión del IA en la asistencia sanitaria incluso se ha convertido en una piedra de toque cultural: en la serie de urgencias de HBO “The Pitt”, los sitiados médicos de Urgencias descubren que una aplicación de IA que les empujó como una herramienta de trazado para ahorrar tiempo a ” poniendo en peligro el tratamiento del paciente.

“La IA generativa no es perfecta”, responde el patrocinador de la aplicación. “Aún debemos revisar todos los gráficos que crea”, reconociendo así, con precisión, que la IA puede aumentar, no aliviar, las cargas de trabajo de los usuarios.

Un futuro en el que los robots realicen operaciones quirúrgicas o hagan diagnósticos cuidadosos sigue siendo cosa de la ciencia ficción. En medicina, como en otros sitios, se ha demostrado que la tecnología de IA es útil para hacerse cargo de las tareas automatizables de los humanos, pero no en situaciones que requieren ingenio o creatividad humana, o precisión. Y los intentos de utilizar algoritmos relacionados con la IA para realizar juicios sanitarios han sido impugnados en los tribunales.

En una demanda colectiva presentada en el tribunal federal de Minnesota en 2023, cinco pacientes de Medicare y supervivientes de otros tres alegan que UnitedHealth Group, la mayor aseguradora médica del país, se basó en un algoritmo de IA para denegar la cobertura de su atención, “anulando las determinaciones de los médicos tratantes en cuanto a la atención médica necesaria”.

El caso está pendiente. En su defensa, UnitedHealth ha afirmado que se mantienen las decisiones sobre si se aprueba o deniega la cobertura totalmente en manos de médicos y otros profesionales clínicos la empresa utiliza y sus decisiones sobre la cobertura y la atención cumplen los estándares de Medicare.

El algoritmo de IA citado por los demandantes, dice UnitedHealth, no se utiliza “para denegar la atención a los miembros o para realizar determinaciones adversas de cobertura de necesidades médicas”, sino para ayudar a los médicos y pacientes a “anticipar y planificar las necesidades de atención futuras”. La empresa no abordó la afirmación de los demandantes sobre la tasa de error del algoritmo.

“No debemos ser complacientes de aceptar errores” de las herramientas de IA, me dijo Topol. Pero es correcto preguntarse si ese mensaje ha sido absorbido por los promotores de aplicaciones sanitarias de IA.

Las exenciones de responsabilidad que advierten de que las respuestas de IA “no están revisadas profesionalmente ni sustituyen al asesoramiento médico” casi han desaparecido de las plataformas de IA, según una encuesta realizada por investigadores de Stanford y UC Berkeley.

El problema se vuelve más acuciante a medida que el lenguaje de los chatbots se vuelve más sofisticado y fluido, inspirando una confianza injustificada en sus conclusiones, advirtieron los investigadores. “Los usuarios pueden interpretar erróneamente el contenido generado por la inteligencia artificial como orientación de expertos”, escribieron, “pueden resultar en un tratamiento retrasado, un cuidado personal inadecuado o una confianza equivocada en la información no validada”.

Normalmente, las leyes estatales requieren que los diagnósticos médicos y las decisiones clínicas procedan de exámenes físicos realizados por médicos con licencia y después de un trabajo completo de la historia clínica y familiar de un paciente. No necesariamente descartan el uso de la IA por parte de los médicos para ayudarles a desarrollar diagnósticos o planes de tratamiento, pero los médicos deben mantener el control.

La Administración de Alimentos y Medicamentos exime a los dispositivos médicos de las licencias gubernamentales si están “destinados generalmente a la educación del paciente y… no está pensado para el diagnóstico de enfermedades u otras afecciones. Esto puede cubrir los bots de IA si no emiten diagnósticos.

Pero es posible que esto no ayude a los usuarios que hayan colgado voluntariamente sus historiales médicos y los resultados de las pruebas a los robots de IA, sin saber las preocupaciones, incluida si su información se mantendrá privada o se utilizará contra ellos en las decisiones de seguro. Los vacíos en los datos que han colgado afectan a los consejos que reciben de los robots. Y como los robots no saben nada salvo el contenido que han alimentado, sus resultados sanitarios pueden reflejar sesgos culturales en los datos básicos, como las disparidades étnicas en la incidencia y el tratamiento de la enfermedad.

“Si hay un error con todos sus datos, podría sufrir un ataque de ansiedad bastante grave”, dice Topol. “Los pacientes deben verificar, no sólo confiar” en lo que han oído de un bote.

Topol advierte que el efecto negativo de la información de IA engañosa no sólo puede recaer en los pacientes, sino en el propio campo de la IA. “El público no diferencia realmente entre robots individuales”, me dijo. “Todo lo que necesitamos son algunas historias de terror” sobre diagnósticos equivocados o consejos peligrosos, “y toda esa zona está asfaltada”.

En su opinión, esto limitaría la promesa de tecnologías que podrían mejorar la eficacia de la práctica médica de muchas formas. El remedio es que las aplicaciones de IA estén sometidas a los mismos estándares clínicos aplicados a “un fármaco, un dispositivo, un diagnóstico. No podemos bajar el umbral porque es algo nuevo, o distinto, con un atractivo amplio”.

Enlace fuente