<  Back to the Polytechnique Montréal portal

Image-Based Analysis and Modelling of Respiratory Motion Using Deep Learning Techniques

Liset Vazquez Romaguera

Ph.D. thesis (2021)

Open Access document in PolyPublie
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (20MB)
Show abstract
Hide abstract


In North America, primary liver tumor and associated metastasis represent the second most common cause of cancer-related mortality, causing more than 600,000 deaths each year. For both intermediate and late stages, external beam radiotherapy is often used to treat and control disease progression. Its goal is to deliver enough radiation to damage the genetic ma-terial of cancerous cells. Therefore, during dose delivery, the aim is to obtain a possibly static target in the beam's eye view whenever the beam is on. However, respiratory organ motion is a complicating factor in tumour treatment. Consequently, accurate target localization is one of the main challenges during the procedure. To ensure an accurate dose, respiration management strategies are required to optimize the radiation delivery to the tumor site. In this respect, proposing new methods for imaging the temporal dynamic of the organ during free-breathing will allow the quantitative assessment of respiratory-induced deformations. Although 3D imaging is possible, the acquisition and processing times are not compatible with real-time monitoring. For this reason, approaches to obtain volumetric information from 2D slices are considered potential solutions for improving the treatment efficiency. Furthermore, to adjust the conformal dose, it is necessary to predict the target motion trajectory in advance in order to compensate for the system latencies. Recent technological developments have enabled simultaneous beam delivery and image acquisition. The real-time image acquisitions allow for in-plane target monitoring. At the same time, they act as internal surrogates, making them suitable to drive motion models. The focus of this thesis is to provide a set of tools for analyzing and modelling the respiratory motion on the basis of images that are typically collected through the clinical workflow. The adopted methodology led to addressing three specific research objectives. The first objective is aimed at developing an automatic slice reordering methodology to construct 4D volumes from navigator-less MR images. The second one seeks to find novel solutions to leverage artificial intelligence for the motion modelling task. The last objective is aimed at designing an image-based temporal predictor that can be integrated into the motion models to enable future volume generation. The first contribution aims more specifically at automatic 4D MR volume construction from navigator-less multi-slice cine acquisitions. The slice sorting process to build temporal vol-umes is a challenging task. It is even more difficult if navigator signals are not available. We propose a methodology to derive pseudo navigator signals from the dynamic series acquired at each anatomical slice position. It relies primarily on deformable image registration. Sub-sequently, a uni-dimensional signal is derived from a statistical analysis of the main motion component. This respiratory signal is then processed to automatically identify a time point corresponding to the end-exhale state. Furthermore, we designed a graph-based approach for slice stacking where 2D images represent the vertices. The edges of the graphs are weighted according to similarity measures based on both pixel and motion information. The auto-matic end-exhale time detection and the automatic pseudo navigator extraction allow the method to work on high spatial and temporal resolution data that capture several respiratory cycles, enabling inter-cycle variability studies. Both quantitative and qualitative measures show improved spatiotemporal consistency with the proposed method. Compared to similar techniques, which assume a regular respiratory pattern, our method is able to cope with irregular breathing and small apneas of the volunteers. The second contribution intends to establish deep learning-based solutions for respiratory mo-tion modelling from both deterministic and probabilistic points of view. Both approaches rely on dimensionality reduction to associate partial observations with high-dimensional deforma-tions. Specifically, we propose convolutional autoencoding as a backbone for the modeling task. The first developed model associates the surrogate images to the low dimensional defor-mations by minimizing the L2 distance between both latent representations. In contrast, the second model uses the images to condition a probabilistic distribution over the defor-mations at each respiratory phase. Sagittal and coronal orientations were explored in our experiments. Unlike traditional statistical motion models, which require finding inter-subject correspondences, our methods exploit the strong generalization capability of deep networks to find patterns across a population dataset. Hence, these works present a novel paradigm to approach the respiratory motion modelling task. Additionally, they offer other advantages in terms of model interpretability and personalization. Our studies reveal that, regardless of the imaging modality, data points in the latent space are clustered according to their position within the respiratory cycle. On the other hand, the models can be easily personalized to new subjects by fine-tuning their weights once created. Importantly, since the inference time is on the order of a few milliseconds, these models are real-time applicable. Experimental analysis on real datasets showed that the model can be applied on unseen subjects to yield a clinically relevant accuracy. The deterministic approach enables 3D target tracking from single-view slices with mean landmark errors of 2.4 mm and 5.2 mm in unseen cases of MRI and US datasets, while the probabilistic variant obtained a mean error of 1.67 mm and 2.17 mm in these datasets. Finally, the third contribution proposes temporal predictive mechanisms for future image representation and frame generation. This step is fundamental for accurate dose delivery and planning. However, it is not exempt from hurdles, such as the prediction from limited dynamics and the high-dimensionality inherent to complex deformations. The first developed model leverages feature representations at multiple scales and learns to extrapolate them through time using convolutional recurrent layers. In contrast to related approaches, which attempt to regress values in the pixel domain, we leverage spatial transformations to tackle this challenge and avoid direct pixel synthesis. This model is able to predict vessel positions in the next temporal image with a median accuracy (interquartile range) of 0.45(0.55) mm, 0.45(0.74) mm and 0.28(0.58) mm in MRI, US and CT datasets, respectively. In this same research line, we also investigate multi-head dot-product attention structures, which were originally proposed for natural language processing. These models linearly project the input to a set of vectors, namely, queries, keys and values. Unlike the original structure, which uses the target language as queries in the decoding part, we propose to predict future representation from an image sequence by learning the queries. Furthermore, we leverage future frames, available during model training, to compute a prior distribution. This prior knowledge acts as a regularizer for learning the queries. The proposed method is able to predict future deformations with a mean geometrical error of 1.2 ± 0.7 mm in the MRI dataset. Additionally, we introduce a novel approach to improve local tracking. Since local detection methods are generally more accurate than global dense deformation predictions, we propose to leverage the previously developed motion models to refine the deformation fields over a pre-selected region of interest around the target. This means that, instead of relying solely on the global DVF, we use it to enhance the local target tracking. Besides, we use the latent codes of the motion model to compute an attention map over the coarse deformation fields. This tracking module is agnostic to the motion model and the temporal predictor. Experimental results reveal that it can reduce the motion model error by approximately 63%. This research project enabled us to investigate whether deep neural networks would be a feasible option to model high-dimensional deformations in a latent space and to relate them to partial observations. Moreover, it introduced the first population-based model using deep generative networks applied to respiratory motion tracking. This research demonstrated that the proposed models could also be personalized, making them better suited to the patient's characteristics. In summary, this set of motion compensation methods is expected to impact the next generation of image-guided radiotherapy and become an important component for treatment optimization.


En Amérique du Nord, les tumeurs primitives du foie et les métastases associées représen-tent la deuxième cause de mortalité liée au cancer, causant plus de 600 000 décès chaque année. Pour les patients dans les stades intermédiaires et avancés, la radiothérapie externe est souvent utilisée pour traiter et contrôler la progression de la maladie. Son objectif est de fournir suffisamment d'irradiation aux cellules cancéreuses afin d'endommager le matériel génétique de celles-ci. Par conséquent, lors de l'administration de la dose, l'objectif est d'obtenir une cible presque statique dans le champ de vision du faisceau lorsque celui-ci est actif. Cependant, le mouvement des organes respiratoires est un facteur de complication dans le traitement des tumeurs. Par conséquent, la localisation précise de la cible est l'un des principaux défis au cours de la procédure. Pour garantir une dose précise, des stratégies de gestion de la respiration sont utilisées afin d'optimiser l'administration du rayonnement au site tumoral. À cet égard, la proposition de nouvelles méthodes pour imager le mouve-ment de l'organe en respiration libre permettra d'évaluer quantitativement les déformations induites par la respiration. Bien que l'imagerie 3D soit possible, les temps d'acquisition et de traitement ne sont pas compatibles avec le suivi en temps réel. Pour cette raison, les approches permettant d'obtenir de l'information volumétrique à partir de coupes 2D sont considérées comme des solutions potentielles pour améliorer l'efficacité du traitement. De plus, pour ajuster la dose conforme, il est nécessaire de prédire la trajectoire du mouvement de la cible afin de compenser les latences du système. Les développements technologiques récents ont permis la livraison simultanée de faisceaux d'irradiation et l'acquisition d'images. Les images acquises en temps réel permettent une surveillance de la cible dans le plan imagé. Elles représentent également des signaux substituts internes, ce qui les rend compatibles avec des modèles de mouvement. L'objectif de cette thèse est de fournir un ensemble d'outils pour analyser et modéliser le mouvement respiratoire sur la base d'images généralement acquises par le flux de travail clin-ique. La méthodologie adoptée a conduit à répondre à trois objectifs de recherche spécifiques. Le premier objectif vise à développer une méthodologie de réordonnancement automatique de tranches pour reconstruire des volumes 4D à partir d'images IRM sans navigateur. Le sec-ond cherche à trouver de nouvelles solutions pour tirer parti de l'intelligence artificielle pour la tâche de modélisation du mouvement. Le dernier objectif vise à concevoir un prédicteur temporel basé sur l'image qui peut être intégré aux modèles de mouvement pour permettre la génération de volumes à l'avance. La première contribution vise plus particulièrement la reconstruction automatique de volumes IRM en 4D à partir d'acquisitions cinématiques multicoupes sans navigateur. Le processus de triage des tranches pour conformer les volumes temporels est une tâche complexe. C'est encore plus difficile lorsque les signaux du navigateur ne sont pas disponibles. Nous proposons une méthodologie pour dériver des signaux pseudo-navigateurs à partir des séries dynamiques acquises à chaque position de coupe anatomique. Elle repose principalement sur le recalage d'images déformable. Par la suite, un signal unidimensionnel est dérivé d'une analyse statis-tique de la composante principale du mouvement. Ce signal respiratoire est ensuite traité pour identifier automatiquement un point temporel correspondant à l'état de fin d'expiration. De plus, nous avons conçu une approche basée sur des graphes pour l'empilement de tranches où les images 2D représentent les sommets. Les arêtes des graphes sont pondérées selon des mesures de similarité basées à la fois sur les informations de pixel et du mouvement. La détection automatique du temps de fin d'expiration et l'extraction automatique du pseudo-navigateur permettent à la méthode d'opérer sur des données à haute résolution spatiale et temporelle qui capturent plusieurs cycles respiratoires, permettant des études de variabil-ité inter-cycles. Les mesures quantitatives et qualitatives montrent une meilleure cohérence spatio-temporelle avec la méthode proposée. Comparée à des techniques similaires, qui sup-posent un schéma respiratoire régulier, notre méthode est capable de faire face à la respiration irrégulière et aux courtes apnées chez les sujets. La deuxième contribution vise à proposer des solutions basées sur l'apprentissage profond pour la modélisation du mouvement respiratoire d'un point de vue à la fois déterministe et probabiliste. Les deux approches reposent sur la réduction de dimensionnalité pour associer des observations partielles à des déformations de grande dimension. Plus précisément, nous proposons l'auto-encodage convolutif comme base pour effectuer la tâche de modélisation. Le premier modèle développé associe les images substituts aux déformations de dimension réduite en minimisant la distance L2 entre les deux représentations latentes. En revanche, le second modèle utilise les images afin de conditionner une distribution probabiliste sur les dé-formations à chaque phase respiratoire. Les orientations sagittale et coronale ont été explorées dans nos expériences. Contrairement aux modèles de mouvement statistiques traditionnels, qui nécessitent de trouver des correspondances entre les sujets, nos méthodes exploitent la forte capacité de généralisation des réseaux profonds pour identifier ces correspondances dans un ensemble de données d'une population. Par conséquent, ces travaux présentent un nou-veau paradigme pour aborder la tâche de modélisation du mouvement respiratoire. De plus, ils offrent des avantages en termes d'interprétation et de personnalisation des modèles. Nos études révèlent que, quelle que soit la modalité d'imagerie, dans l'espace latent, les don-nées sont regroupées en fonction de leur position dans le cycle respiratoire. D'autre part, les modèles peuvent être facilement personnalisés à de nouveaux sujets en ajustant leurs paramètres. Fait important, étant donné que le temps d'inférence est de l'ordre de quelques millisecondes, ces modèles sont applicables en temps réel. L'analyse expérimentale sur des ensembles de données réels a montré que le modèle peut être appliqué sur des sujets ex-clus de l'ensemble de données d'entraînement, offrant une précision cliniquement pertinente. L'approche déterministe permet un suivi de cible en 3D à partir de tranches en 2D avec des erreurs moyennes de 2.4 mm et 5.2 mm pour des cas tests d'ensembles de données IRM et US, tandis que la variante probabiliste du modèle a obtenu une erreur moyenne de 1.67 mm et 2.17 mm dans ces mêmes ensembles de données. Enfin, la troisième contribution propose des mécanismes prédictifs temporels pour la représen-tation et la génération d'images futures. Cette étape est fondamentale pour une administra-tion et une planification précise de la dose. Cependant, elle n'est pas exempte d'obstacles tels que la prédiction à partir de dynamiques limitées ainsi que la grande dimensionnalité inhérente aux déformations complexes. Le premier modèle développé exploite les représen-tations de caractéristiques à plusieurs échelles et apprend à les extrapoler dans le temps à l'aide de couches récurrentes convolutives. Contrairement aux approches connexes qui ten-tent de régresser les valeurs dans le domaine des pixels, nous tirons parti des transformations spatiales pour relever ce défi et éviter la synthèse directe de pixel. Ce modèle est capable de prédire les positions des vaisseaux sanguins dans la prochaine image temporelle avec une précision médiane (écart interquartile) de 0.45(0.55) mm, 0.45(0.74) mm et 0.28(0.58) mm dans les ensembles de données IRM, US et CT, respectivement. Dans cette même avenue de recherche, nous étudions également les structures d'attention de produits scalaires à têtes multiples, qui ont été initialement proposées pour le traitement du langage naturel. Ces modèles projettent linéairement l'entrée sur un ensemble de vecteurs, à savoir des requêtes, des clés et des valeurs. Contrairement à la structure originale, qui utilise le langage cible comme requêtes dans la partie décodante, nous proposons de prédire la future représentation à partir d'une séquence d'images en apprenant les requêtes. De plus, nous exploitons les images futures, disponibles lors de l'entraînement du modèle, pour cal-culer une distribution à priori. Cette connaissance préalable agit comme régularisateur pour l'apprentissage des requêtes. La méthode proposée est capable de prédire les déformations futures avec une erreur géométrique moyenne de 1.2 ± 0.7 mm dans l'ensemble de données IRM. De plus, nous introduisons une nouvelle approche pour améliorer le suivi local. Étant donné que les méthodes de détection locales sont généralement plus précises que les prédictions de déformations denses globales, nous proposons de tirer parti des modèles de mouvement précédemment développés pour raffiner les champs de déformation à l'intérieur d'une région d'intérêt présélectionnée autour de la cible. Cela signifie qu'au lieu de compter uniquement sur le champ de déformation global, nous l'utilisons pour améliorer le suivi de la cible locale. De plus, nous utilisons les codes latents du modèle de mouvement pour créer une carte d'attention sur les champs de déformation grossiers. Ce module de suivi est indépendant du modèle de mouvement et du prédicteur temporel. Les résultats expérimentaux révèlent qu'il peut réduire l'erreur du modèle de mouvement d'environ 63%. Ce projet de recherche nous a permis d'étudier l'utilisation des réseaux de neurones profonds pour la modélisation des déformations de grande dimension dans un espace latent et de les relier à des observations partielles. De plus, il a introduit le premier modèle basé sur une pop-ulation de sujets utilisant des réseaux génératifs profonds appliqués au suivi des mouvements respiratoires. Cette recherche a démontré que les modèles proposés peuvent également être personnalisés, les rendant plus adaptés aux caractéristiques uniques du patient. En résumé, cet ensemble de méthodes de compensation de mouvement devrait avoir un impact sur la prochaine génération d'appareils de radiothérapie guidée par l'image et devenir un élément important pour l'optimisation du traitement.

Department: Institut de génie biomédical
Program: Génie biomédical
Academic/Research Directors: Samuel Kadoury and Jean-François Carrier
PolyPublie URL: https://publications.polymtl.ca/9915/
Institution: Polytechnique Montréal
Date Deposited: 21 Apr 2022 11:14
Last Modified: 12 May 2023 09:43
Cite in APA 7: Vazquez Romaguera, L. (2021). Image-Based Analysis and Modelling of Respiratory Motion Using Deep Learning Techniques [Ph.D. thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/9915/


Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item