IMIENS Noticia - la-uned-desarrolla-un-sistema-que-traduce-textos-medicos-al-lenguaje-estandarizado-de-la-sanidad

Cada día, hospitales y centros de salud generan miles de informes médicos escritos en lenguaje natural. Para que esa información pueda organizarse, compartirse o utilizarse en investigación, es necesario traducirla a códigos clínicos estandarizados, un proceso que todavía consume mucho tiempo y recursos. La investigadora Alicia Ramírez Arrabe, del grupo NLP&IR del Departamento de Lenguajes y Sistemas Informáticos de la UNED, ha participado en el desarrollo de un sistema de inteligencia artificial que automatiza esa tarea y, además, muestra qué partes del texto justifican cada decisión.

El trabajo presenta una arquitectura capaz de transformar automáticamente textos médicos en códigos de la Clasificación Internacional de Enfermedades (CIE) mediante un proceso organizado en tres fases: reconocimiento de entidades, clasificación supervisada y análisis de similitud semántica. Evaluado en corpus en español e inglés, el sistema ha mostrado resultados competitivos y una mejora media del 3'42% en la métrica F1 respecto a métodos previos.

Del informe médico al código

La codificación clínica permite convertir la información contenida en los informes médicos —diagnósticos, síntomas, procedimientos o antecedentes— en un lenguaje común basado en códigos estandarizados. Gracias a ello, profesionales de distintos centros pueden registrar y consultar la información de forma homogénea, facilitando tanto la gestión sanitaria como el análisis posterior de grandes volúmenes de datos.

Sin embargo, este proceso sigue realizándose en gran medida de forma manual, lo que implica una elevada inversión de tiempo y recursos. “Los sistemas que automaticen el proceso aportan mucho valor, ya que convierten una tarea muy tediosa y de muchas horas en un proceso rápido y eficiente, que a su vez permite dedicar más tiempo a investigar y analizar la información”, explica Alicia Ramírez Arrabe.

La propuesta desarrollada por el equipo incorpora además dos avances especialmente relevantes. Por un lado, incluye una fase no supervisada que permite identificar códigos que el sistema no había visto previamente durante el entrenamiento, ampliando su capacidad para trabajar en entornos reales. Por otro, es capaz de interpretar referencias complejas dentro del texto médico, como menciones superpuestas o fragmentadas que deben entenderse conjuntamente para identificar el código correcto.

Una IA que explica sus decisiones

Uno de los aspectos más innovadores del trabajo es que el sistema no funciona como una caja negra. Además de generar una propuesta de codificación, señala qué fragmentos concretos del informe médico justifican cada resultado. “El sistema presentado, además de predecir los códigos CIE-10, devuelve las partes del texto que justifican dichas predicciones”, señala la investigadora. Gracias a ello, los profesionales sanitarios pueden comprender por qué se ha asignado un determinado código y validar el resultado de una forma más rápida y transparente.

Para comprobar su rendimiento, el sistema se evaluó utilizando corpus en español e inglés. Aunque los modelos se entrenaron de forma independiente para cada conjunto de datos, el objetivo era demostrar que la metodología mantiene su eficacia en contextos distintos y no depende de un único tipo de información clínica.

La mejora obtenida —un 3'42% en F1— adquiere especial relevancia en una tarea particularmente exigente desde el punto de vista computacional. Como recuerda Ramírez Arrabe, la codificación clínica automática trabaja con lenguaje médico especializado y con más de 100.000 códigos posibles, por lo que avances aparentemente pequeños tienen un impacto significativo sobre la precisión y la cobertura del sistema.

El siguiente paso de la investigación será desarrollar una demo funcional que permita introducir textos clínicos y visualizar automáticamente tanto los códigos detectados como los fragmentos que justifican cada decisión. Si los resultados son positivos, esta línea de trabajo podría facilitar futuras aplicaciones en entornos clínicos o de investigación.

El trabajo se ha desarrollado con el respaldo de la infraestructura de la UNED y del conocimiento especializado del grupo NLP&IR en procesamiento del lenguaje natural aplicado al ámbito biomédico, una línea de investigación consolidada dentro del Departamento de Lenguajes y Sistemas Informáticos.

Publicada el 21-05-2026

La UNED desarrolla un sistema que traduce textos médicos al lenguaje estandarizado de la sanidad