Los avances en inteligencia artificial (IA) deben ir acompañados de esfuerzos para comprender y evaluar mejor su rendimiento en los ámbitos de la salud y la biomedicina, así como para desarrollar marcos regulatorios adecuados. Así lo establecía recientemente un informe e JAMA Network. Y es que con el rápido impacto que ha tenido la IA en el sector salud, a los expertos les preocupa que si bien todas las innovaciones del sector salud, desde fármacos a tecnología sanitaria, pasan por fuertes controles de calidad y seguridad, no esté pasando lo mismo con la inteligencia artificial, cuando además sus resultados pueden tener igualmente un alto impacto en la salud de la población.
Con esta perspectiva, coincidía también un informe de BMC que destacaba los problemas éticos y legales relacionados con el desarrollo y la implementación de las tecnologías de IA en la atención médica, y sus profundos efectos en los profesionales, así como en su relación con los pacientes y otras organizaciones del sector. “Debemos ser capaces de identificar las tecnologías de IA en las prácticas médicas y distinguirlas por su naturaleza para poder reaccionar y responder mejor ante ellas”, señalaba.
En este contexto, el pasado mes de mayo Open AI, la compañía creadora de Chat GPT presentaba HealthBench, el primer punto de referencia integral de evaluación de IA del sector salud, diseñado específicamente para aplicaciones sanitarias.
Las claves de HealthBench
En concreto, HealthBench combina miles de diálogos reales entre médico y paciente, para evaluar los modelos de IA en términos de precisión médica, seguridad, empatía y cumplimiento. De esta forma, con más de 5.000 diálogos médico-paciente de múltiples turnos y más de 48.000 elementos de rúbrica, HealthBench prueba el rendimiento de la IA en amplios escenarios clínicos.
Desde la compañía coinciden con los expertos en que las evaluaciones son esenciales para comprender el rendimiento de los modelos en entornos sanitarios. Si bien se han realizado importantes esfuerzos en el ámbito académico y la industria, argumentan que muchas evaluaciones existentes no reflejan escenarios realistas, carecen de una validación rigurosa con la opinión de expertos médicos o no permiten la mejora de los modelos más avanzados.
En este sentido, aseguran que HealthBench proporciona las métricas y los procesos estándar de oro que necesita para cuantificar y mejorar el rendimiento de su modelo en escenarios clínicos realistas.
La figura del médico en su desarrollo
Desarrollado en colaboración con 262 médicos que han ejercido en 60 países, HealthBench, las 5.000 conversaciones de HealthBench simulan interacciones entre modelos de IA y usuarios o profesionales sanitarios. La tarea de un modelo es proporcionar la mejor respuesta posible al último mensaje del usuario.
Además, las conversaciones de HealthBench se generaron mediante generación sintética y pruebas adversariales en humanos. Es decir, que se crearon para ser realistas y similares al uso real de grandes modelos lingüísticos: son multilingües y multidireccionales, abarcan una variedad de perfiles de personas comunes y profesionales sanitarios, también diversas especialidades y contextos médicos, y se seleccionaron por su dificultad.
De esta forma, el Consenso de HealthBench contiene 3.671 ejemplos de HealthBench con un subconjunto de criterios filtrados, validados repetidamente según el consenso médico. Un criterio solo se incluye si la mayoría de los médicos coincide en su idoneidad para un ejemplo. «Informamos sobre las tasas de error del Consenso de HealthBench, diseñado para tener un mínimo de errores prácticamente nulo», tal y como informan sus creadores en su web.
Posibles usos e impacto de HealthBench
Entre los beneficios de esta aplicación, los creadores destacan que los modelos mejorados para la salud podrían tener el mayor impacto en entornos de bajos recursos, mejorando su accesibilidad con herramientas como esta. De esta forma, destacan que HealthBench puede reducir los ciclos de evaluación de semanas a horas utilizando sus canales automatizados. También puede lograr minimizar los resultados de IA dañinos o inexactos con rigurosas métricas de seguridad.
Respecto a los tipos de uso, hay muchas posibilidades. Actualmente, entre Universidades y laboratorios de investigación utilizan HealthBench para validar nuevos algoritmos de IA en PNL médico, o para el apoyo en la toma de decisiones clínicas y triaje de pacientes. Las publicaciones de referencia suelen citar las puntuaciones de HealthBench para demostrar mejoras. Por su parte, los fabricantes de dispositivos médicos incluyen informes de HealthBench en los documentos reglamentarios para demostrar su alineación con las directrices de la FDA sobre IA/ML en la atención médica.
En cuanto a los hospitales y proveedores de telemedicina, el uso de HealthBench puede ser útil para auditar las ofertas de IA de terceros, garantizando que las soluciones de los proveedores cumplan con los estándares de calidad institucionales antes de su implementación en los flujos de trabajo de atención al paciente.
The post HealthBench y la importancia de evaluar la IA en el sector salud appeared first on El médico interactivo.
from El médico interactivo https://ift.tt/NWyalC8
0 comentarios:
Publicar un comentario