<  Back to the Polytechnique Montréal portal

Impact of Rater Style on Deep Learning Segmentation in Medical Imaging

Olivier Vincent

Masters thesis (2021)

[img] Terms of Use: All rights reserved.
Restricted to: Repository staff only until 14 July 2022.
Cite this document: Vincent, O. (2021). Impact of Rater Style on Deep Learning Segmentation in Medical Imaging (Masters thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/6283/
Show abstract Hide abstract

Abstract

La sclérose en plaques est la maladie auto-immune la plus courante du système nerveux central. Elle se caractérise par la présence de lésions dans le cerveau et la moelle épinière, visibles en imagerie par résonance magnétique (IRM). Cependant, pour extraire des infor-mations utiles des images, il est nécessaire de segmenter les lésions sur ces images, ce qui est un processus long et coûteux lorsqu’il est réalisé manuellement par un expert tel qu’un radiologue. L’objectif de ce projet est d’utiliser des méthodes innovantes d’apprentissage profond pour améliorer la segmentation des images médicales. Premièrement, pour aborder la généralisation à travers di˙érents contrastes dans la segmen-tation de la sclérose en plaques de la moelle épinière, nous mettons en œuvre la modula-tion linéaire par caractéristique (FiLM) pour tirer parti de la grande variété de paramètres d’acquisitions IRM dans le modèle de segmentation, en apprenant les caractéristiques de chaque contraste. Fait intéressant, un U-Net bien optimisé a atteint les mêmes performances que notre FiLMed-Unet sur un ensemble de données à contrastes multiples (0,72 de score Dice), ce qui suggère qu’il existe un goulot d’étranglement dans cette tâche, qui n’est pas la généralisation à travers di˙érents contrastes. Ce goulot d’étranglement provient probable-ment de la variabilité interexperts, qui est estimée à 0,61 de score Dice dans notre ensemble de données. Deuxièmement, afin de s’attaquer à ce goulot d’étranglement, nous quantifions le style des experts qui annotent les données sous forme de biais et de consistance. Cela nous permet ensuite d’explorer l’impact des styles d’annotations sur les modèles d’apprentissage profond. Deux ensembles de données publics multiévaluateurs et multicentriques sont utilisés, un de lésions de sclérose en plaques cérébrales et un de segmentation de la matière grise de la moelle épinière. Sur les deux ensembles de données, les résultats montrent une corrélation (R2 = 0, 60 et 0, 93) entre le biais de l’expert et l’incertitude du modèle d’apprentissage profond. L’impact de la fusion d’annotations des experts sur cette relation est également étudié, et nous montrons que les consensus multicentriques sont plus eÿcaces que les con-sensus monocentriques pour réduire l’incertitude, car le style de l’expert n’est pas spécifique à l’individu, mais principalement au centre.----------ABSTRACT Multiple sclerosis is the most common autoimmune disease of the central nervous system. It is characterized by the presence of lesions in the brain and spinal cord, which are visible in magnetic resonance imaging (MRI). However, to extract useful information from the images, it is necessary to segment the lesions on these images, which is a long and expensive process when performed manually by an expert such as a radiologist. The goal of this project is to use innovative deep learning methods to improve segmentation of medical images. First, to tackle generalization across imaging contrasts in spinal cord multiple sclerosis seg-mentation we implement Feature-wise Linear Modulation (FiLM) to leverage physics knowl-edge within the segmentation model and learn the characteristics of each contrast. Inter-estingly, a well-optimized U-Net reached the same performance as our FiLMed-Unet on a multi-contrast dataset (0.72 of Dice score), which suggests that there is a bottleneck in spinal MS lesion segmentation di˙erent from the generalization across varying contrasts. This bot-tleneck likely stems from inter-rater variability, which is estimated at 0.61 of Dice score in our dataset. Second, as a follow-up we quantify rater style in the form of bias and consistency and explore the impacts on deep learning models. Two multi-rater and multi-center public datasets are used, consisting of brain multiple sclerosis lesion and spinal cord grey matter segmentation. On both datasets, results show a correlation (R2 = 0.60 and 0.93) between rater bias and deep learning uncertainty. The impact of label fusion between raters’ annotations on this relationship is also explored, and we show that multi-center consensuses are more e˙ective than single-center consensuses to reduce uncertainty, since rater style is not individual-specific but mostly center-specific.

Open Access document in PolyPublie
Department: Institut de génie biomédical
Polytechnique Montréal > Centres de recherche > Institut de génie biomédical
Academic/Research Directors: Julien Cohen-Adad
Date Deposited: 14 Jul 2021 10:45
Last Modified: 14 Jul 2021 10:45
PolyPublie URL: https://publications.polymtl.ca/6283/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only