Evaluación retrospectiva de un primer modelo de inteligencia artificial argentino para tamizaje automático de retinopatía diabética referible a partir de fotografías de fondo de ojo

Abstract

Objetivos: Evaluar la efectividad de una red neuronal convolucional para la identificación de casos de retinopatía diabética (RD) referible a partir de fotografías de fondo de ojo, entrenada con 39.592 estudios recolectados de conjuntos públicos. Materiales y Métodos: Se realizó un estudio observacional retrospectivo sobre 61.525 retinografías no empleadas para entrenamiento. 61.007 imágenes son internacionales y de origen público, utilizadas comúnmente para evaluar estos algoritmos, y están agrupadas en 9 conjuntos diferentes. Las restantes 519 fueron recolectadas retrospectivamente de las bases de datos clínicas del Centro de Oftalmología Martínez (Pehuajó, Argentina) y del Hospital de Alta Complejidad El Cruce (Florencio Varela, Argentina). Para cada imagen, se cuenta con una etiqueta asociada indicando si el caso corresponde a un paciente con signos de RD referible o no. En el caso de los datos de Argentina, estas etiquetas fueron asignadas manualmente por dos oftalmólogas expertas. Las rpobabilidades de salida del algoritmo se compararon con las etiquetas manuales utilizando curvas ROC y cuantificando tanto área bajo la curva (AUC) como valores de sensibilidad (SE) y especificidad (ESP) y sus intervalos de confianza (IC 95%). Para SE y ESP se utilizaron tres puntos operativos diferentes, seleccionados utilizando 9.569 estudios que no se emplearon ni para entrenar ni para evaluar el algoritmo. Estos puntos corresponden a umbrales de probabilidad que aseguran SE alta (PO1), ESP alta (PO2) o que consideran referibles a los casos con un 50% de probabilidad asignada (PO50%). Para analizar cualitativamente la respuesta del modelo, se estudiaron manualmente las regiones que el algoritmo tuvo en cuenta utilizando mapas de calor obtenidos mediante la técnica XGrad-Cam. Resultados: El modelo reportó un AUC = 0.954 (0.952-0.956). Para el PO1, se obtuvieron SE = 95.5% (95.1%-95.8%) y ESP = 70.2% (69.8%-70.6%), para PO2 SE = 74.8% (74.0%-75.5%) y ESP = 0.97.8% (97.6%-97.9%) y para PO50% SE = 75.2% (74.4%-75.9%) y ESP = 97.7% (97.5%-97.8%). En los casos correctamente clasificados como referibles, los mapas de calor indicaron que el algoritmo analizó mayormente la presencia de hemorragias y/o exudados duros y algodonosos, mientras que en los correctamente clasificados como no referibles las activaciones más notorias se reconocen en las regiones de la mácula, el nervio óptico y las arcadas vasculares. Los casos erróneos, por otro lado, se asocian mayormente a problemas de captura tales como suciedad en la lente y artefactos, o a la presencia de otras enfermedades con signos similares a los de la RD. Conclusiones: El modelo demostró valores altos de SE y ESP y respuestas cualitativas compatibles con las observaciones normalmente realizadas por los fotalmólogos. Se espera continuar recolectando datos para realizar una evaluación más exhaustivas sobre datos nacionales, con el propósito de integrar este algoritmo a una plataforma digital argentina actualmente en desarrollo para el tamizaje de la RD.

Date
Jun 1, 2022 2:45 PM — 4:45 PM
Location
14:45 hs. Salón Alerce, Hotel Hilton Puerto Madero,
Macacha Güemes 351, Ciudad Autónoma de Buenos Aires, C1106BKG
José Ignacio Orlando
José Ignacio Orlando
Assistant Researcher

My research interests include machine learning and computer vision techniques for medical imaging applications, mostly centered in ophthalmology.