Apprentissage profond multimodal pour l'estimation de pose d'humains alités

Ghassen Cherni

Mémoire de maîtrise (2022)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

Le sujet de ce travail de recherche est la détection de pose de patients alités en utilisant une approche multimodale; des images de différentes modalités, RGB, proche infrarouge (Low-Width Infrared - LWIR) et profondeur, sont combinées à l'aide de méthodes d'apprentissage profond et sont utilisées afin d'estimer la pose de patients. Cette fusion de modalités devra permettre de surmonter les défis spécifiques à la détection de pose de patients dans un contexte hospitalier, c'est-à-dire la possible présence d'occlusions dues à l'utilisation par exemple d'une couverture sur le patient, et la variation de luminosité dans les chambres d'hôpital. L'objectif de cette recherche est de déterminer la combinaison optimale de modalités et la meilleure méthode de fusion qui permettent d'obtenir l'estimation la plus précise des poses des patients tout en ayant une latence permettant un déploiement en temps réel. Ainsi une comparaison de 5 différentes méthodes de fusion multimodale est faite afin de déterminer la plus performante et une comparaison de différentes combinaisons de modalités est aussi réalisée afin de trouver la plus optimale.

Abstract

In-bed human pose estimation (HPE) is an important step for sleep behavior analysis and for patient monitoring in the intensive care unit. Challenges specific to this context include wide variability in scene illumination (from darkness to bright light), and blanket occlusions. A vision-based multi-modal approach offers an interesting solution to this problem. Work has been done for the creation of an annotated domain-specific dataset for in-bed HPE, containing RGB, long-wavelength infrared (LWIR) and depth images. How to combine these modalities to optimize the in-bed HPE? The present work aims at answering this question by comparing different multimodal deep learning methods. Extensive experiments show the superiority of the Channel-exchange (CE) method over other fusion methods. CE consists in a parameter-free framework that exchanges channels between the modality-specific sub-branches of the neural network, guided by the contributions of individual channels to the overall learning of the model as measured by the magnitude of batch-normalization. The combination of LWIR and depth images using CE reaches a performance of 97.1% using the PCKh@0.5 evaluation metric, outperforming the current benchmark of 96.6% on a domain-specific dataset for in-bed HPE

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Lama Séoud , Quentin Cappart et Philippe Jouvet
URL de PolyPublie:	https://publications.polymtl.ca/10517/
Université/École:	Polytechnique Montréal
Date du dépôt:	06 févr. 2023 14:44
Dernière modification:	27 sept. 2024 14:04

Citer en APA 7:	Cherni, G. (2022). Apprentissage profond multimodal pour l'estimation de pose d'humains alités [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10517/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document