Fuente:
UNED Comunicación
Cada día, hospitales y centros de salud generan miles de informes médicos escritos en lenguaje natural. Para que esa información pueda organizarse, compartirse o utilizarse en investigación, es necesario traducirla a códigos clínicos estandarizados, un proceso que todavía consume mucho tiempo y recursos. La investigadora Alicia Ramírez Arrabe, del grupo NLP&IR del Departamento de Lenguajes y Sistemas Informáticos de la UNED, ha participado en el desarrollo de un sistema de inteligencia artificial que automatiza esa tarea y, además, muestra qué partes del texto justifican cada decisión.
El trabajo presenta una arquitectura capaz de transformar automáticamente textos médicos en códigos de la Clasificación Internacional de Enfermedades (CIE) mediante un proceso organizado en tres fases: reconocimiento de entidades, clasificación supervisada y análisis de similitud semántica. Evaluado en corpus en español e inglés, el sistema ha mostrado resultados competitivos y una mejora media del 3'42% en la métrica F1 respecto a métodos previos.
Una IA que explica sus decisiones
Uno de los aspectos más innovadores del trabajo es que el sistema no funciona como una caja negra. Además de generar una propuesta de codificación, señala qué fragmentos concretos del informe médico justifican cada resultado. “El sistema presentado, además de predecir los códigos CIE-10, devuelve las partes del texto que justifican dichas predicciones”, señala la investigadora. Gracias a ello, los profesionales sanitarios pueden comprender por qué se ha asignado un determinado código y validar el resultado de una forma más rápida y transparente.
Para comprobar su rendimiento, el sistema se evaluó utilizando corpus en español e inglés. Aunque los modelos se entrenaron de forma independiente para cada conjunto de datos, el objetivo era demostrar que la metodología mantiene su eficacia en contextos distintos y no depende de un único tipo de información clínica.
La mejora obtenida —un 3'42% en F1— adquiere especial relevancia en una tarea particularmente exigente desde el punto de vista computacional. Como recuerda Ramírez Arrabe, la codificación clínica automática trabaja con lenguaje médico especializado y con más de 100.000 códigos posibles, por lo que avances aparentemente pequeños tienen un impacto significativo sobre la precisión y la cobertura del sistema.
El siguiente paso de la investigación será desarrollar una demo funcional que permita introducir textos clínicos y visualizar automáticamente tanto los códigos detectados como los fragmentos que justifican cada decisión. Si los resultados son positivos, esta línea de trabajo podría facilitar futuras aplicaciones en entornos clínicos o de investigación.
El trabajo se ha desarrollado con el respaldo de la infraestructura de la UNED y del conocimiento especializado del grupo NLP&IR en procesamiento del lenguaje natural aplicado al ámbito biomédico, una línea de investigación consolidada dentro del Departamento de Lenguajes y Sistemas Informáticos.