Procesamiento de Lenguaje Natural para la investigación clínica

April 30, 2021

En la actualidad son muchos los hospitales, tanto a nivel nacional como internacional, que disponen de un sistemas de Historia Clínica Electrónica (EHR, Electronic Health Record), en el cual se registran el conjunto de documentos, tanto escritos como gráficos, que hacen referencia a los episodios de salud y enfermedad de una persona, y la actividad sanitaria que se genera con motivo de esos episodios 1.

Aunque es mucha la información que se recoge en la HCE, también es mucha la información que se encuentra en formato texto libre y no estructurado: curso clínico, observaciones y notas, informes de alta, informes de pruebas diagnósticas, informe quirúrgico, etc. Según el informe “Cognitive computing and the future of health care (2017)”2, en 2020, cada 73 días se duplicará la cantidad de datos médicos, de los que se estiman el 80 % están desestructurados.

Esto nos lleva a encontrarnos con una paradoja. Disponer de un sistema de información con un volumen muy grande de datos, pero al mismo tiempo con un volumen mucho más pequeño de datos para la explotación y análisis.

Por otro lado, es habitual que en la realización de estudios clínicos se requiera el análisis manual de las historias clínicas para buscar e identificar aquella información que no se encuentra estructurada (y que cómo ya hemos comentado, es mucha). Veámoslo con un pequeño ejemplo; a un paciente que acude a urgencias por una determinada patología es probable que, en algunos casos, cuando le entreguen el informe de alta en éste se encuentre codificado el diagnóstico al alta de la visita, pero lo que a menudo no está codificado casi en ningún sistema son los síntomas con los que el paciente acudió a urgencias (fiebre, dolor muscular, irritación en la piel, mareos, etc.); es aquí donde, si los síntomas del paciente son relevantes para el estudio,  es necesario que algún profesional revise de forma manual la historia clínica para identificar los síntomas con los que acudió el paciente y así decidir si puede ser o no un paciente adecuado para un determinado estudio, o recoger una u otra información relativa a los síntomas.

Además, es difícil acceder al texto narrativo de manera confiable porque la variedad de expresiones es enorme; se pueden usar muchas palabras diferentes para denotar un solo concepto y se puede usar una enorme variedad de estructuras gramaticales para transmitir información equivalente 3.

Si a todo esto le añadimos otro concepto tan básico, pero tan complejo al mismo tiempo, como la temporalidad, la cosa se complica bastante. En el ejemplo anterior, donde hablábamos de los síntomas del paciente, podemos denotar que no es lo mismo “el paciente tiene fiebre”, “el paciente manifiesta haber tenido fiebre hace 2 días” o “el paciente tuvo fiebre”.

Es en estos casos, en los que las técnicas de PLN (Procesamiento de Lenguaje Natural) e IA (Inteligencia Artificial) pueden ayudar de manera significativa a la búsqueda e identificación de información que inicialmente no se encuentra estructurada en la HCE. Una  ventaja  que  puede  tener  la  aplicación  del  PLN  es  que  el  investigador  no  tiene  que  interpretar  los  textos  y  son  los  algoritmos  los  que,  mediante  aprendizaje  con  los  datos, generan resultados 4.

En IOMED desde hace ya varios años, un importante grupo de analistas de datos, expertos en inteligencia artificial, médicos y profesionales de la salud, están trabajando codo con codo para hacer que la tarea de navegar dentro de los datos no estructurados de la historia clínica sea una realidad, y de este modo convertir toda aquella información que hasta ahora no era explotable, en información estructurada para poder realizar estudios y análisis de la misma.

Hoy, y gracias a la tecnología de IOMED, los investigadores ya disponen de una herramienta que les permite aprovechar al máximo su tiempo y en los estudios y ensayos, poniendo foco en la propia investigación y reduciendo de forma drástica el tiempo que deben invertir en navegar por las historias clínicas en busca de aquella información que necesitan.

Con IOMED, el futuro de la investigación clínica, es hoy.

[1] Carnicero, J.: De la Historia Clínica a la Historia de Salud Electrónica. V Informe Seis 2003. SEIS. 2003.

[2] Kesey O’neil y Dawson Friedland Mohamed Nooman Ahmed, Andeep S. Toor: Cognitive computing and the future of health care. 2017.

[3] Carol Friedman and Stephen B. Johnson: Natural Language and Text Processing in Biomedicine. pp 312. 2006

[4] José Vicente Sancho Escrivá: Revista de Comunicación y Salud, Vol. 10, nº 1, pp. 22. 2020



Image Description

Antoni Mallol

Hospital Engagement Manager