Thèse de doctorat (2023)
Accès restreint: Personnel autorisé jusqu'au 11 mars 2025 Conditions d'utilisation: Tous droits réservés |
Résumé
La reconnaissance d’activités humaines dans les vidéos revêt une importance majeure en offrant une compréhension automatisée du comportement humain dans une variété de contextes. Elle permet de détecter, analyser et interpréter les activités des individus, ouvrant ainsi la voie à un large éventail d’applications. Par exemple, dans le domaine de l’aménagement urbain, la reconnaissance d’activités permet de détecter et comprendre les comportements des usagers des espaces publiques. Elle peut ainsi aider les experts en aménagement urbain à prendre des décisions éclairées qui favorisent la conception d’aménagements à la fois fonctionnels et adaptés aux besoins de la population. Toutefois, reconnaître les activités humaines dans des environnements réalistes peut être problématique à cause de plusieurs défis tels que l’occlusion, les conditions d’éclairage, et la variation d’apparence intra-classe. Dans cette thèse, nous présentons différentes méthodes permettant une reconnaissance automatisée des activités à partir de séquences vidéos. Les approches proposées visent à relever les défis spécifiques rencontrés dans des environnements réalistes et complexes comme les espaces publics. Ces approches se basent sur l’idée que l’intégration de l’information de pose humaine fournit des caractéristiques précieuses de l’activité. Aussi, se concentrer sur les informations d’apparence spatio-temporelles les plus discriminantes permet de mieux comprendre et reconnaître les activités dans les séquences vidéos. La première méthode que nous proposons est une méthode de reconnaissance d’activités humaines basée sur la pose, qui extrait de manière efficace les caractéristiques spatio-temporelles les plus discriminantes des activités et les encodent en une représentation compacte en grille. Notre approche se concentre sur l’analyse des informations les plus pertinentes liées à l’activité, en mettant en évidence les poses représentatives à l’aide d’un mécanisme d’attention explicite. Ce mécanisme permet de gérer efficacement les situations difficiles, telles que les occlusions et les variations intra-classes.
Abstract
Human activity recognition in videos is of great importance as it provides automated understanding of human behaviour in a variety of contexts. It enables the detection, analysis, and interpretation of the activities of individuals, thereby paving the way for a wide range of applications. For example, in the field of urban planning, activity recognition helps detect and understand the behaviours of users in public spaces. It can assist urban planners in making informed decisions that promote the design of functional and population-tailored environments. However, recognizing human activities in realistic environments can be challenging due to several obstacles such as occlusion, lighting conditions, and intra-class appearance variation. In this thesis, we present various methods for automated activity recognition from video sequences. The proposed approaches aim to address specific challenges encountered in realistic and complex environments, such as public spaces. These approaches are based on the idea that integrating human pose information provides valuable activity features. Additionally, focusing on the most discriminative spatio-temporal appearance information helps to better understand and recognize activities in video sequences. The first method we propose is a pose-based human activity recognition method that efficiently extracts the most discriminative spatio-temporal features of activities and encodes them into a compact grid representation. Our approach focuses on analyzing the most relevant activity-related information, highlighting representative poses using an explicit attention mechanism. This mechanism effectively handles challenging situations, such as occlusions and intra-class variations.
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Guillaume-Alexandre Bilodeau et Nicolas Saunier |
URL de PolyPublie: | https://publications.polymtl.ca/55100/ |
Université/École: | Polytechnique Montréal |
Date du dépôt: | 11 mars 2024 11:09 |
Dernière modification: | 03 oct. 2024 22:52 |
Citer en APA 7: | Lamghari, S. (2023). Reconnaissance automatisée des activités et des comportements humains à travers l'analyse de vidéos [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/55100/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements