Mémoire de maîtrise (2022)
Document en libre accès dans PolyPublie |
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (1MB) |
Résumé
Le sujet de ce travail de recherche est la détection de pose de patients alités en utilisant une approche multimodale; des images de différentes modalités, RGB, proche infrarouge (Low-Width Infrared - LWIR) et profondeur, sont combinées à l'aide de méthodes d'apprentissage profond et sont utilisées afin d'estimer la pose de patients. Cette fusion de modalités devra permettre de surmonter les défis spécifiques à la détection de pose de patients dans un contexte hospitalier, c'est-à-dire la possible présence d'occlusions dues à l'utilisation par exemple d'une couverture sur le patient, et la variation de luminosité dans les chambres d'hôpital. L'objectif de cette recherche est de déterminer la combinaison optimale de modalités et la meilleure méthode de fusion qui permettent d'obtenir l'estimation la plus précise des poses des patients tout en ayant une latence permettant un déploiement en temps réel. Ainsi une comparaison de 5 différentes méthodes de fusion multimodale est faite afin de déterminer la plus performante et une comparaison de différentes combinaisons de modalités est aussi réalisée afin de trouver la plus optimale.
Abstract
In-bed human pose estimation (HPE) is an important step for sleep behavior analysis and for patient monitoring in the intensive care unit. Challenges specific to this context include wide variability in scene illumination (from darkness to bright light), and blanket occlusions. A vision-based multi-modal approach offers an interesting solution to this problem. Work has been done for the creation of an annotated domain-specific dataset for in-bed HPE, containing RGB, long-wavelength infrared (LWIR) and depth images. How to combine these modalities to optimize the in-bed HPE? The present work aims at answering this question by comparing different multimodal deep learning methods. Extensive experiments show the superiority of the Channel-exchange (CE) method over other fusion methods. CE consists in a parameter-free framework that exchanges channels between the modality-specific sub-branches of the neural network, guided by the contributions of individual channels to the overall learning of the model as measured by the magnitude of batch-normalization. The combination of LWIR and depth images using CE reaches a performance of 97.1% using the PCKh@0.5 evaluation metric, outperforming the current benchmark of 96.6% on a domain-specific dataset for in-bed HPE
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Lama Séoud, Quentin Cappart et Philippe Jouvet |
URL de PolyPublie: | https://publications.polymtl.ca/10517/ |
Université/École: | Polytechnique Montréal |
Date du dépôt: | 06 févr. 2023 14:44 |
Dernière modification: | 27 sept. 2024 14:04 |
Citer en APA 7: | Cherni, G. (2022). Apprentissage profond multimodal pour l'estimation de pose d'humains alités [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10517/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements