AI “Doctores” engañan evidencia médica

Los sistemas de inteligencia artificial más avanzados del mundo están esencialmente engañados a través de pruebas médicas, logrando puntajes impresionantes no a través de un conocimiento médico genuino, sino explotando lagunas en la forma en que se diseñan estas pruebas. Este descubrimiento tiene implicaciones masivas para la industria de la IA médica y todos los pacientes que podrían encontrar atención médica alimentada por IA.

El problema de la trampa de IA médica

Considere los puntos de referencia de AI médicos, como la evidencia estandarizada que miden el bien que los sistemas de inteligencia artificial entienden la medicina. Justo cuando los estudiantes toman SAT para demostrar que están listos para la universidad, los sistemas de IA toman estos puntos de referencia médicos para demostrar que están listos para ayudar a los médicos a diagnosticar enfermedades y recomendar tratamientos.

Pero un reciente Estudio innovador Publicado por Microsoft Research reveló que estos sistemas de IA no son realmente medicamentos de aprendiz. Simplemente hicieron muy buenas pruebas. Es como descubrir que un estudiante logró puntajes SAT perfectos que no comprenden las matemáticas y la lectura, sino para memorizar qué elección de respuesta generalmente es más a menudo.

Los investigadores pusieron seis modelos de IA más importantes a través de pruebas de estrés rigurosas, y descubrieron que estos sistemas logran altas puntuaciones médicas a través de trucos de prueba sofisticados en lugar de la comprensión médica real.

A medida que los sistemas de IA engañan el sistema

El equipo de investigación descubrió múltiples formas de competencia médica falsa, utilizando métodos que casi serían obtenidos de manera segura por un estudiante humano expulsado:

  • Cuando los investigadores simplemente reorganizaron el orden de las respuestas de opción múltiple, la opción de moverse a la opción C, por ejemplo, el rendimiento de IA disminuyó significativamente. Esto significa que los sistemas estaban aprendiendo “la respuesta generalmente está en la posición B” en lugar de “la neumonía causa estos síntomas específicos”.
  • En preguntas que requerían analizar imágenes médicas como rayos x o RMN, los sistemas de IA todavía proporcionaban respuestas correctas, incluso cuando las imágenes se eliminaron por completo. GPT-5, por ejemplo, mantuvo una precisión del 37.7% en preguntas visuales, incluso sin ninguna imagen, muy por encima del nivel de coincidencia aleatoria del 20%.
  • AI Systems descubrió cómo usar pistas en opciones de respuesta incorrecta para adivinar la correcta en lugar de aplicar un conocimiento médico real. Los investigadores encontraron que estos modelos estaban muy basados ​​en la redacción de respuestas incorrectas, conocidas como “distractores”. Cuando estos distractores fueron reemplazados por términos no médicos, la precisión de la IA colapsó. Esto reveló que se estaba apoyando en trucos de prueba en lugar de una comprensión genuina.

Tu salud en el IA

Esta investigación llega en un momento en que la IA se está expandiendo rápidamente a la atención médica. Ochenta por ciento de los hospitales Ahora use la IA para mejorar la atención del paciente y la eficiencia operativa, y los médicos se basan cada vez más en la IA para todo, desde la lectura X -Ray hasta los tratamientos sugerentes. Sin embargo, este estudio sugiere que los métodos de prueba actuales no pueden distinguir entre la competencia médica genuina y los algoritmos sofisticados de las pruebas.

El estudio de Microsoft Research encontró que modelos como GPT-5 lograron una precisión del 80.89% en los desafíos de imágenes médicas, pero cayeron al 67.56% cuando se eliminaron las imágenes. Esta disminución de 13.33 puntos porcentuales revela la confianza oculta en los signos no visuales. Aún más importante, cuando los investigadores reemplazaron las imágenes médicas que respaldan diferentes diagnósticos, la precisión del modelo colapsó en más de treinta puntos porcentuales, a pesar de que no hay cambios en las preguntas de texto.

Considere este escenario: un sistema de IA alcanza una puntuación del 95% en las pruebas de diagnóstico médica y se desarrolla en las salas de emergencias para ayudar a los médicos a evaluar rápidamente a los pacientes. Pero si este sistema obtuvo su alta puntuación utilizando trucos en lugar de comprensión médica, se pueden perder síntomas críticos o recomendar tratamientos inapropiados cuando enfrentan pacientes reales las condiciones que no coinciden con los patrones que aprendió de las preguntas de la prueba.

Se espera que el mercado médico de IA supere los cien mil millones para 2030, y los sistemas de salud en todo el mundo están invertir en herramientas de diagnóstico de IA. Las organizaciones de salud que compran sistemas IA basados ​​en puntajes de referencia impresionantes pueden ser desconocidas para la seguridad del paciente. Los investigadores de Microsoft advierten que “los puntajes de referencia médica no reflejan directamente la preparación del mundo real”.

Las implicaciones van más allá de los puntajes de las pruebas. El estudio de Microsoft reveló que cuando se les pidió a los modelos de IA para explicar su razonamiento médico, a menudo generan un “razonamiento convincente pero defectuoso” o proporcionaban “respuestas correctas respaldadas por el razonamiento fabricado”. Un ejemplo mostró un modelo que diagnosticaba adecuadamente la dermatomiositis mientras describía las funciones visuales que no estaban presentes en la imagen, ya que no se proporcionó ninguna imagen.

Incluso cuando se acelera la adopción de AI, La rápida adopción de la medicina de IA ha preocupado a los investigadoresCon expertos advierten que los hospitales y las universidades tienen que dar un paso para llenar los vacíos en la regulación.

El problema de reconocimiento de patrones de IA

A diferencia de los estudiantes de medicina humana que aprenden a afectar las enfermedades en el cuerpo humano, los sistemas de IA de hoy aprenden al encontrar patrones en los datos. Esto crea lo que los investigadores de Microsoft llaman “aprendizaje de atajos”, encontrando la forma más fácil de la respuesta correcta sin desarrollar una comprensión genuina.

El estudio encontró que los modelos de IA podían diagnosticar neumonía no interpretar las características radiológicas, pero al aprender que la “tos productiva” más la “fiebre” está ocupada estadísticamente con neumonía en los datos de entrenamiento. Es una coincidencia de patrones, no una comprensión médica.

Búsqueda reciente de La naturaleza destaca las preocupaciones similaresDemostrar que la confianza en los sistemas de salud asistidos por IA sigue siendo problemático cuando estos sistemas no muestran una comprensión genuina de los contextos médicos.

Avanzando con Medical IA

Los investigadores de Microsoft defienden el replanteamiento de la forma en que prueban los sistemas médicos de IA. En lugar de confiar en los puntajes de referencia, necesitamos métodos de evaluación que puedan detectar cuando los sistemas de IA son pruebas de juego en lugar de aprender medicina.

La industria de la IA médica enfrenta un momento crítico. Los resultados de la investigación de Microsoft revelan que los impresionantes puntajes de referencia han creado una ilusión de preparación que podría tener graves consecuencias para la seguridad del paciente. A medida que la IA continúa expandiendo la atención médica, nuestros métodos para verificar estos sistemas deben evolucionar para coincidir con su sofisticación y su potencial de falla sofisticada.

Enlace fuente

Lourdes Pascual
Lourdes Pascual

Lourdes Pascual es periodista en noticiashuesca y ofrece noticias de última hora, actualizaciones políticas e informes en tiempo real de todo el mundo. Con una mirada atenta a las fuentes fiables y un afán por descubrir la verdad, [Nombre del autor] es una voz de confianza para un periodismo preciso y dinámico.

Artículos: 2598