Retos de la inteligencia artificial en medicina

January 8, 2020

Los recientes avances de la inteligencia artificial (IA) aplicada a la salud han demostrado posibles aplicaciones en varios dominios de la medicina, incluidos algoritmos para interpretar radiografías de tórax, detectar cáncer en mamografías, predecir el desarrollo de la enfermedad de Alzheimer a partir de la tomografía por emisión de positrones o identificar lesiones cutáneas cancerosas. Varias compañías están desarrollando plataformas que aprovechan la IA como un medio para identificar variantes genéticas en las raíces de enfermedades raras, o incluso para identificar condiciones genéticas en función de los rasgos faciales del paciente. La inteligencia artificial en medicina se presenta como una valiosa herramienta para los profesionales del área, al optimizar los procesos de prevención, diagnóstico y tratamiento de enfermedades.

Sin embargo, actualmente hay escasos ejemplos de la aplicación de estas técnicas con éxito en la práctica clínica. A pesar de que las distintas técnicas clasificadas como “Inteligencia” continúan generando grandes resultados en la mayoría de las categorías de software, tanto los investigadores como los profesionales médicos han observado que tales algoritmos están muy lejos de lo que podríamos considerar inteligencia.

La Inteligencia Artificial se describe comúnmente como algoritmos capaces de aprender y razonar sobre el mundo, asignando narrativas a sus éxitos que van mucho más allá de la forma en que realmente funcionan. Los científicos de datos generalmente proclaman que su algoritmo aprendió una nueva tarea, en lugar de decir que simplemente extrajo un conjunto de patrones estadísticos de un conjunto de datos de entrenamiento seleccionados y etiquetados manualmente bajo la supervisión directa de un programador que eligió qué algoritmos, parámetros y flujos de trabajo se usaron para su desarrollo.

Así, se dice que una red neuronal que distingue correctamente fotos de perros y de gatos ha aprendido las características biológicas innatas de esos animales, cuando en realidad, es posible que simplemente haya detectado que todos los ejemplos de perros llevaban collares en el conjunto de imágenes de entrenamiento. De hecho, la red neuronal subyacente no es capaz de entender realmente qué es un “perro” o un “gato” o un “collar”.

Simplemente asocia agrupaciones específicas de colores y texturas en la imagen con cadenas particulares de texto. Si la imagen a predecir se aleja demasiado de los ejemplos que ha visto en el pasado, fallará, con consecuencias desastrosas cuando con la aplicación de dicho algoritmo trata de detectar cáncer o enfermedades neurodegenerativas.

¿Cómo funciona la IA?

Hasta cierto punto, las inteligencias artificiales de hoy no son más capaces de “aprender” o “razonar” sobre el mundo que una regresión lineal clásica. Simplemente inducen patrones a través de estadísticas. Es solo un ejercicio de ajuste matemático a los datos, aunque complejo y no trivial. La disponibilidad de grandes cantidades de datos y nuevas arquitecturas de hardware, los hace capaces de representar fenómenos estadísticos más complejos que los enfoques tradicionales, y las técnicas actuales de aprendizaje profundo permiten identificar patrones previamente ocultos, extrapolar tendencias y predecir resultados en un amplio espectro de problemas. Pero siguen siendo meras abstracciones matemáticas, no importa cuán espectaculares sean sus resultados.

El aprendizaje profundo (deep learning) consiste en un tipo de algoritmos basados en redes neuronales que iterativamente “aprenden” una aproximación a alguna función. Y como en casi todos los algoritmos de aprendizaje automático, podemos identificar fácilmente tres componentes comunes que los conforman: representación, evaluación y optimización.

- La representación implica la transformación de los datos de entrada de un espacio a otro espacio más útil y que puede interpretarse más fácilmente. Por ejemplo, en el contexto de una red neuronal convolucional, la arquitectura más común para el procesamiento de imágenes, los píxeles de una imagen, no son útiles para distinguir un perro de un gato, por lo que los transformamos en una representación más útil (por ejemplo, logits de una salida softmax) que se puede interpretar y evaluar.

- La evaluación viene definida por lo que se conoce como la función de coste. ¿Con qué eficacia nuestro algoritmo transformó los datos en un espacio más útil? ¿Cuánto se parece nuestra salida a las etiquetas esperadas (clasificación)? ¿El sistema predijo correctamente la siguiente palabra en la secuencia de texto (Redes neuronales recursivas)? ¿Hasta qué punto la distribución de nuestros datos diverge de una distribución Gaussiana (Autoencoder Variacional)? Estas preguntas responden a cómo de bien está funcionando nuestra función de representación, pero lo que es más importante, definen lo que nuestro sistema aprenderá a reconocer.

- La optimización es la última pieza del rompecabezas. Una vez que tenemos el componente de evaluación, podemos optimizar la función de representación para mejorar nuestra métrica de evaluación. En las redes neuronales, esto generalmente significa usar alguna variante del descenso de gradiente para actualizar los parámetros de la red (pesos y sesgos) de acuerdo a la función de coste definida.

Inteligencia artificial aplicada a las historias clínicas

La promesa de la medicina digital surge en parte de la esperanza de que, al digitalizar los datos de salud, podamos aprovechar más fácilmente los sistemas informáticos para comprender y mejorar la atención a los pacientes y mejorar la salud global de la población. De hecho, los datos de atención médica recopilados de forma rutinaria se están acercando a la escala genómica en volumen y complejidad. Gracias a las nuevas tecnologías, el sector de la salud no cuenta solo con información sobre historiales médicos, radiografías o secuencias de genes, sino también imágenes en 3D, o la lectura de sensores biométricos. Se estima que en 2020 el volumen de datos de salud del mundo podría alcanzar los 25.000 petabytes.

El aprendizaje automático se aplica actualmente a las historias clínicas para predecir los pacientes que tienen un mayor riesgo de reingreso al hospital o los pacientes que tienen una mayor probabilidad de no presentarse a una cita o de no adherirse a los medicamentos recetados. Pero las aplicaciones son ilimitadas también en los ámbitos de diagnóstico, investigación, desarrollo de fármacos y ensayos clínicos.

A pesar de la gran cantidad de datos ahora digitalizados, los modelos predictivos construidos con datos de historias clínicas rara vez usan más de 20 o 30 variables, y se basan principalmente en modelos lineales tradicionales. En la práctica clínica, los modelos que se implementan son todavía más sencillos, incluso con mucha frecuencia, sistema basados en un solo parámetro.

Una ventaja clave de las técnicas de aprendizaje automático es que los investigadores no necesitan especificar qué variables predictivas potenciales considerar y en qué combinaciones; los sistemas de red multicapa empleados, junto con las técnicas de procesamiento de lenguajes naturales para analizar las notas clínicas de médicos y enfermeras, pueden aprender representaciones de los factores e interacciones clave de las propias historias clínicas, abriendo la puerta a un futuro donde los datos puedan usarse para generar hipótesis que ayuden en el desarrollo de diagnósticos y terapias innovadoras.

Retos actuales

Los sistemas de historia clínicas electrónica (EHR, por sus siglas en inglés) son tremendamente complicados. Cada sistema de salud, cada hospital, personaliza su sistema de tal manera que hace que los datos recopilados en un hospital se vean diferentes a los datos de un paciente similar que recibe una atención similar en otro hospital. Incluso una medida de temperatura tiene un significado diferente según el contexto. Es por ello que antes de que podamos aplicar las técnicas de aprendizaje automático en una escala amplia, necesitamos una forma consistente de representar los registros de los pacientes, por lo que iniciativas de estandarización, como por ejemplo el Observational Medical Outcomes Partnership (OMOP) Common Data Model se convierten en prácticas fundamentales.

El modelo de datos comunes de OMOP permite el análisis sistemático de bases de datos clínicas dispares. El concepto detrás de este enfoque es transformar los datos contenidos en esas bases de datos en un formato común (modelo de datos), así como con una representación común (terminologías, vocabularios, esquemas de codificación), para luego realizar análisis sistemáticos utilizando herramientas comunes.

Este proceso de estandarización es también importante para evitar el sobreajuste a los datos, un problema que aparece cuando el modelo aprendido está demasiado en sintonía con los datos en los que fue entrenado y, por lo tanto, pierde su aplicabilidad a otros conjuntos de datos. Este es un riesgo que aparece con los enfoques que como el aprendizaje profundo son demasiado buenos en la representación de un conjunto de datos, porque el algoritmo no reconoce las fluctuaciones normales en los datos y termina siendo superado por el ruido o detectando correlaciones espurias entre variables.

Unido a este problema de heterogeneidad de datos, la diferente legislación sobre datos médicos de pacientes, hace que sea casi imposible sacar esos datos del hospital. Una posible solución es no llevar los datos al lugar donde se realiza el análisis, sino llevar las técnicas de análisis y las herramientas a los hospitales y recopilar los resultados en de manera federada, para lo cual también es necesario el uso de estándares como OMOP.

Entrelazado con el tema de la generalización está el problema de los sesgos. La escasa cobertura de los datos de entrenamiento de los sistemas de aprendizaje automático pueden reflejar sesgos sociales, con el riesgo de errores en su aplicación a grupos minoritarios, a lo que se suma el riesgo de amplificar los sesgos existentes en los datos históricos. Diversos estudios indican que muchos sistemas de IA afectan desproporcionadamente a grupos que ya están en desventaja por factores como la raza, el género y los antecedentes socioeconómicos. En medicina, los ejemplos incluyen algoritmos de predicción de mortalidad hospitalaria con una precisión variable según el origen étnico y algoritmos que pueden clasificar imágenes de lunares benignos y malignos con una precisión similar a la de los dermatólogos profesionales, pero que fallan con imágenes de lesiones en pacientes con la piel más oscura. La capacidad de detectar y corregir estos sesgos en los datos hace que sea importante confiar en fuentes de datos diferentes y ricas para que la amplitud y la profundidad de los datos expongan las sutilezas correspondientes a cada grupo de pacientes.

La interpretabilidad de los algoritmos es otro elemento clave, ya que existe actualmente un compromiso entre el rendimiento de los sistemas y su interpretabilidad. Los modelos con mejor desempeño (por ejemplo, aprendizaje profundo) son a menudo los menos explicables, mientras que los modelos con peor desempeño (por ejemplo, regresión lineal, árboles de decisión) son los más explicables.

Si bien los ejemplos descritos constituyen éxitos prácticos impresionantes, su efectividad está limitada por su incapacidad para ‘explicar’ su toma de decisiones de una manera comprensible. Esto es potencialmente problemático para su aplicación clínica, donde existe una necesidad clara de enfoques que son no solo de buen desempeño, sino también fiables, transparentes e interpretables.

Comprender y abordar estos desafíos es fundamental si queremos aprovechar al máximo las oportunidades que ofrecen las nuevas tecnologías y que las expectativas del uso de la inteligencia artificial para optimizar la experiencia de la atención médica, mejorar la salud global de la población y reducir los costos de la atención médica se conviertan en una realidad.

Lecturas recomendadas:

[1] Key challenges for delivering clinical impact with artificial intelligence,BMC Medicine

[2] Scalable and accurate deep learning with electronic health records,Nature



Image Description

Alberto Labarga

Senior Data Engineer