Modélisation interprétable du diagnostic de pathologies rétiniennes par apprentissage profond

Thèse de doctorat (2023)

Accès restreint: Personnel autorisé jusqu'au 11 mars 2025
Conditions d'utilisation: Tous droits réservés

Résumé

Cette thèse traite de la reconnaissance automatique des pathologies rétiniennes au sein de deux modalités : la Tomographie par Cohérence Optique (OCT) et le fond d’oeil. Les travaux menés s’appuient sur différents types de réseaux de neurones pour la reconnaissance des maladies, mais en s’imposant une condition supplémentaire nécessaire à leur acceptabilité clinique : au delà de la performance d’un algorithme, il faut optimiser sa capacité à produire une prédiction interprétable par un opérateur humain. Plusieurs approches ont été expérimentées. La première consiste à utiliser un modèle de segmentation pour décomposer une image en un ensemble de structures sémantiques significatives pour le diagnostic. Un réseau de neurones convolutif est entraîné à segmenter quatre classes de lésions dans l’imagerie de fond d’oeil. Plusieurs bases de données sont utilisées à cette fin, dont la caractérisation détaillée révèle l’hétérogénéité. Or, celle-ci entraîne des contraintes additionnelles sur l’entraînement du modèle dans la mesure où les styles d’annotations divergent fortement. Elle questionne donc sur la capacité de généralisation du modèle. Celle-ci est étudiée sous le prisme de la compatibilité inter-bases et aboutit à la création d’un modèle généraliste capable d’adopter, de manière modulaire, les divers styles de segmentation. L’adaptation est obtenue à partir du concept des attaques adversariales portées sur une sonde d’identification de l’origine d’une image placée au coeur de l’encodeur du réseau. Il en résulte un modèle aux multiples styles de segmentation, configurable par l’utilisateur de façon prédictible, sans ré-entraînement ni même modification de ce dernier. La segmentation obtenue est convertie en une représentation sous forme de graphe, permettant de préserver la localité des lésions dans un format allégé de l’image. Ce graphe est utilisé pour la gradation automatique de la rétinopathie diabétique, en comparant une architecture existante avec une proposition originale, toutes deux basées sur le principe des GNNs (Graph Neural Networks). En limitant la structure du graphe aux lésions segmentées, le lien causal reliant ces dernières au diagnostic est intrinsèquement induit dans le modèle ; ce qui distingue ce dernier de l’état de l’art et favorise la transparence de la prise de décision. La seconde approche étudiée se focalise sur un modèle récent de classification d’image, le Transformer. Un nouveau mécanisme est introduit, basé sur le ré-échantillonnage, d’abord par simple interpolation mais ensuite conditionnel de manière stochastique, de la séquence fournie en entrée. Dans ce second cas, la sélection conditionnelle se fait suivant la carte d’attention autogénérée du modèle. L’algorithme, appelé Attention Concentrée, produit une carte d’attribution locale indiquant les structures lues dans l’image par le réseau de manière précise, contribuant ainsi également à une autre forme d’interprétabilité du diagnostic automatisé. Pour éprouver les algorithmes et modèles développés, deux applications cliniques seront étudiées : la première, dédiée au suivi de l’évolution longitudinale de la dégénérescence maculaire liée à l’âge au sein d’une cohorte de patients et la seconde au développement d’une plateforme d’aide au diagnostic à des fins de télédépistage. Ce travail a donné lieu à plusieurs contributions techniques originales. Dans le cadre de la généralisation, l’approche par attaque adversariale permet une adaptation multi-domaines d’une unique architecture conventionnelle, sans modifier ni ré-entraîner celle-ci ; ce qui la distingue des travaux existants dans la littérature. Elle trace une voie vers un entraînement d’un même modèle à partir de données hétérogènes pour lesquelles il n’existe pas nécessairement de domaines source et cible. En termes d’interprétabilité, les travaux sur les architectures Transformers aboutissent à une technique de génération de cartes d’attributions approuvées par les cliniciens. Les Transformers ne permettent pas de manipuler des images de hautes dimensions : l’Attention Concentrée pave le chemin vers de nouvelles architectures se libérant de ces contraintes mémoires.

Abstract

This thesis deals with the automatic recognition of retinal pathologies in two modalities: Optical Coherence Tomography (OCT) and fundus imaging. The work relies on various types of neural networks for disease recognition while imposing an additional condition necessary for their clinical acceptability: beyond the performance of an algorithm, it is essential to optimize its ability to produce predictions interpretable by a human operator. Several approaches have been experimented with. The first approach consists of using a segmentation model to decompose an image into a set of semantically meaningful structures for diagnosis. A convolutional neural network is trained to segment four classes of lesions in fundus imaging. Several databases are used for this purpose, and their detailed characterization reveals heterogeneity, which poses additional constraints on the model’s training due to divergent annotation styles. This raises questions about the model’s generalization capability, which is studied through the prism of inter-database compatibility. The result is the creation of a general model capable of modularly adopting various segmentation styles. The adaptation is achieved through the concept of adversarial attacks on an image origin identification probe placed at the heart of the network’s encoder. The outcome is a model with multiple segmentation styles, configurable by the user in a predictable manner, without retraining or modification. The obtained segmentation is converted into a graph representation, preserving the lesions’ locality in a lightweight image format. This graph is used for the automatic grading of diabetic retinopathy, comparing an existing architecture with an original proposal, both based on Graph Neural Networks (GNNs). By limiting the graph structure to segmented lesions, the causal link between these lesions and the diagnosis is intrinsically induced in the model, distinguishing it from previous published models and promoting transparency in decision-making. The second approach focuses on a recent image classification model, the Transformer. A new mechanism is introduced based on resampling, first by simple interpolation and then stochastically conditioned on the self-generated attention map of the model. This algorithm, called Focused Attention, produces a local attribution map indicating the structures read in the image by the network with precision, thus contributing to another form of interpretability in automated diagnosis. To test the developed algorithms and models, two clinical applications are studied: the first dedicated to monitoring the longitudinal evolution of age-related macular degeneration within a patient cohort, and the second to the development of a diagnostic support platform for tele-screening purposes. This work has resulted in several original technical contributions. Regarding generalization, the adversarial attack approach allows for multi-domain adaptation of a single conventional architecture without modifying or retraining it, setting it apart from existing works in the literature. It paves the way for training a single model with heterogeneous data where there may not necessarily be distinct source and target domains. In terms of interpretability, the work on Transformer architectures leads to a technique for generating attribution maps approved by clinicians. Transformers do not handle high-dimensional images, and Focused Attention opens the path to new architectures that are free from these memory constraints.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Farida Cheriet
URL de PolyPublie:	https://publications.polymtl.ca/55773/
Université/École:	Polytechnique Montréal
Date du dépôt:	11 mars 2024 14:09
Dernière modification:	13 avr. 2024 06:16

Citer en APA 7:	Playout, C. (2023). Modélisation interprétable du diagnostic de pathologies rétiniennes par apprentissage profond [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/55773/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document