Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Los “médicos” de IA están engañando a los exámenes de la escuela de medicina
DPA/Alianza de imágenes a través de Getty Images
Los sistemas de inteligencia artificial más avanzados del mundo están esencialmente engañados a través de pruebas médicas, logrando puntajes impresionantes no a través de un conocimiento médico genuino, sino explotando lagunas en la forma en que se diseñan estas pruebas. Este descubrimiento tiene implicaciones masivas para la industria de la IA médica y todos los pacientes que podrían encontrar atención médica alimentada por IA.
Considere los puntos de referencia de AI médicos, como la evidencia estandarizada que miden el bien que los sistemas de inteligencia artificial entienden la medicina. Justo cuando los estudiantes toman SAT para demostrar que están listos para la universidad, los sistemas de IA toman estos puntos de referencia médicos para demostrar que están listos para ayudar a los médicos a diagnosticar enfermedades y recomendar tratamientos.
Pero un reciente Estudio innovador Publicado por Microsoft Research reveló que estos sistemas de IA no son realmente medicamentos de aprendiz. Simplemente hicieron muy buenas pruebas. Es como descubrir que un estudiante logró puntajes SAT perfectos que no comprenden las matemáticas y la lectura, sino para memorizar qué elección de respuesta generalmente es más a menudo.
Los investigadores pusieron seis modelos de IA más importantes a través de pruebas de estrés rigurosas, y descubrieron que estos sistemas logran altas puntuaciones médicas a través de trucos de prueba sofisticados en lugar de la comprensión médica real.
El equipo de investigación descubrió múltiples formas de competencia médica falsa, utilizando métodos que casi serían obtenidos de manera segura por un estudiante humano expulsado:
Esta investigación llega en un momento en que la IA se está expandiendo rápidamente a la atención médica. Ochenta por ciento de los hospitales Ahora use la IA para mejorar la atención del paciente y la eficiencia operativa, y los médicos se basan cada vez más en la IA para todo, desde la lectura X -Ray hasta los tratamientos sugerentes. Sin embargo, este estudio sugiere que los métodos de prueba actuales no pueden distinguir entre la competencia médica genuina y los algoritmos sofisticados de las pruebas.
El estudio de Microsoft Research encontró que modelos como GPT-5 lograron una precisión del 80.89% en los desafíos de imágenes médicas, pero cayeron al 67.56% cuando se eliminaron las imágenes. Esta disminución de 13.33 puntos porcentuales revela la confianza oculta en los signos no visuales. Aún más importante, cuando los investigadores reemplazaron las imágenes médicas que respaldan diferentes diagnósticos, la precisión del modelo colapsó en más de treinta puntos porcentuales, a pesar de que no hay cambios en las preguntas de texto.
Considere este escenario: un sistema de IA alcanza una puntuación del 95% en las pruebas de diagnóstico médica y se desarrolla en las salas de emergencias para ayudar a los médicos a evaluar rápidamente a los pacientes. Pero si este sistema obtuvo su alta puntuación utilizando trucos en lugar de comprensión médica, se pueden perder síntomas críticos o recomendar tratamientos inapropiados cuando enfrentan pacientes reales las condiciones que no coinciden con los patrones que aprendió de las preguntas de la prueba.
Se espera que el mercado médico de IA supere los cien mil millones para 2030, y los sistemas de salud en todo el mundo están invertir en herramientas de diagnóstico de IA. Las organizaciones de salud que compran sistemas IA basados en puntajes de referencia impresionantes pueden ser desconocidas para la seguridad del paciente. Los investigadores de Microsoft advierten que “los puntajes de referencia médica no reflejan directamente la preparación del mundo real”.
Las implicaciones van más allá de los puntajes de las pruebas. El estudio de Microsoft reveló que cuando se les pidió a los modelos de IA para explicar su razonamiento médico, a menudo generan un “razonamiento convincente pero defectuoso” o proporcionaban “respuestas correctas respaldadas por el razonamiento fabricado”. Un ejemplo mostró un modelo que diagnosticaba adecuadamente la dermatomiositis mientras describía las funciones visuales que no estaban presentes en la imagen, ya que no se proporcionó ninguna imagen.
Incluso cuando se acelera la adopción de AI, La rápida adopción de la medicina de IA ha preocupado a los investigadoresCon expertos advierten que los hospitales y las universidades tienen que dar un paso para llenar los vacíos en la regulación.
A diferencia de los estudiantes de medicina humana que aprenden a afectar las enfermedades en el cuerpo humano, los sistemas de IA de hoy aprenden al encontrar patrones en los datos. Esto crea lo que los investigadores de Microsoft llaman “aprendizaje de atajos”, encontrando la forma más fácil de la respuesta correcta sin desarrollar una comprensión genuina.
El estudio encontró que los modelos de IA podían diagnosticar neumonía no interpretar las características radiológicas, pero al aprender que la “tos productiva” más la “fiebre” está ocupada estadísticamente con neumonía en los datos de entrenamiento. Es una coincidencia de patrones, no una comprensión médica.
Búsqueda reciente de La naturaleza destaca las preocupaciones similaresDemostrar que la confianza en los sistemas de salud asistidos por IA sigue siendo problemático cuando estos sistemas no muestran una comprensión genuina de los contextos médicos.
Los investigadores de Microsoft defienden el replanteamiento de la forma en que prueban los sistemas médicos de IA. En lugar de confiar en los puntajes de referencia, necesitamos métodos de evaluación que puedan detectar cuando los sistemas de IA son pruebas de juego en lugar de aprender medicina.
La industria de la IA médica enfrenta un momento crítico. Los resultados de la investigación de Microsoft revelan que los impresionantes puntajes de referencia han creado una ilusión de preparación que podría tener graves consecuencias para la seguridad del paciente. A medida que la IA continúa expandiendo la atención médica, nuestros métodos para verificar estos sistemas deben evolucionar para coincidir con su sofisticación y su potencial de falla sofisticada.