<  Back to the Polytechnique Montréal portal

Apprentissage profond multimodal pour l'estimation de pose d'humains alités

Ghassen Cherni

Master's thesis (2022)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (1MB)
Show abstract
Hide abstract

Abstract

In-bed human pose estimation (HPE) is an important step for sleep behavior analysis and for patient monitoring in the intensive care unit. Challenges specific to this context include wide variability in scene illumination (from darkness to bright light), and blanket occlusions. A vision-based multi-modal approach offers an interesting solution to this problem. Work has been done for the creation of an annotated domain-specific dataset for in-bed HPE, containing RGB, long-wavelength infrared (LWIR) and depth images. How to combine these modalities to optimize the in-bed HPE? The present work aims at answering this question by comparing different multimodal deep learning methods. Extensive experiments show the superiority of the Channel-exchange (CE) method over other fusion methods. CE consists in a parameter-free framework that exchanges channels between the modality-specific sub-branches of the neural network, guided by the contributions of individual channels to the overall learning of the model as measured by the magnitude of batch-normalization. The combination of LWIR and depth images using CE reaches a performance of 97.1% using the PCKh@0.5 evaluation metric, outperforming the current benchmark of 96.6% on a domain-specific dataset for in-bed HPE

Résumé

Le sujet de ce travail de recherche est la détection de pose de patients alités en utilisant une approche multimodale; des images de différentes modalités, RGB, proche infrarouge (Low-Width Infrared - LWIR) et profondeur, sont combinées à l'aide de méthodes d'apprentissage profond et sont utilisées afin d'estimer la pose de patients. Cette fusion de modalités devra permettre de surmonter les défis spécifiques à la détection de pose de patients dans un contexte hospitalier, c'est-à-dire la possible présence d'occlusions dues à l'utilisation par exemple d'une couverture sur le patient, et la variation de luminosité dans les chambres d'hôpital. L'objectif de cette recherche est de déterminer la combinaison optimale de modalités et la meilleure méthode de fusion qui permettent d'obtenir l'estimation la plus précise des poses des patients tout en ayant une latence permettant un déploiement en temps réel. Ainsi une comparaison de 5 différentes méthodes de fusion multimodale est faite afin de déterminer la plus performante et une comparaison de différentes combinaisons de modalités est aussi réalisée afin de trouver la plus optimale.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Lama Séoud, Quentin Cappart and Philippe Jouvet
PolyPublie URL: https://publications.polymtl.ca/10517/
Institution: Polytechnique Montréal
Date Deposited: 06 Feb 2023 14:44
Last Modified: 08 Apr 2024 10:22
Cite in APA 7: Cherni, G. (2022). Apprentissage profond multimodal pour l'estimation de pose d'humains alités [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10517/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item