Thèse de doctorat (2021)
Document en libre accès dans PolyPublie |
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (30MB) |
Résumé
Les méthodes de détection d'objets sont largement dominées par l'apprentissage profond depuis quelques années, apportant de grandes améliorations. Cette révolution a servi à un ensemble d'applications dans le domaine du transport. On pense par exemple aux applications d'analyse de trafic et aux divers systèmes d'aide à la conduite. Certaines applications sont en devenir et vont requérir de plus amples améliorations, par exemple un système de conduite complètement automatisé. Cette thèse présente un ensemble de méthodes permettant de détecter et segmenter des usagers de la route dans des images et des vidéos. Les méthodes présentées s'attaquent aux défis propres au domaine du trafic routier, c'est-à-dire des conditions lumineuses et météorologiques difficiles, une haute densité de petits objets ainsi que de nombreuses occlusions partielles. La première méthode que nous présentons est une méthode de détection d'objets dans les images. Cette méthode tire profit d'annotations semi-supervisées créées par flux optique et soustraction d'arrière-plan. Ces annotations sont utilisées pour entraîner le réseau à générer une carte de saillance qui servira à deux objectifs. Premièrement, un processus d'attention est effectué afin de diriger le réseau vers les zones d'intérêts sur les cartes d'attributs. Deuxièmement, une binarisation de la carte de saillance est effectuée pour obtenir une segmentation des objets d'intérêts dans l'image. Cette méthode est implémentée dans le détecteur Center-Net [1]. En raison de la carte d'attention qui illumine les zones d'intérêts dans l'image, nous nommons notre méthode SpotNet [2]. La deuxième méthode présentée propose une architecture de détection d'objets sur vidéo en fusionnant des cartes d'attributs de trames temporellement proches. Afin de fusionner les cartes d'attributs, nous introduisons un module composé de concaténation de canaux, convolutions 1×1, suivi de réarrangement des canaux. Cette architecture ainsi que le module de fusion sont assez génériques pour être intégrés dans plusieurs détecteurs. En raison de sa rapidité et de ses bonnes performances, nous utilisons RetinaNet [3] comme détecteur de base, et pour cette raison, nous nommons cette méthode RN-VID [4]. Troisièmement, nous présentons une extension ainsi qu'une combinaison des deux travaux précédents. Dans ce travail, nommé FFAVOD, nous implémentons l'architecture de RN-VID dans deux nouveaux détecteurs modernes, CenterNet et SpotNet. Nous démontrons que nous pouvons améliorer les résultats avec un ensemble de détecteurs de bases différents.
Abstract
Visual object detection methods have been largely dominated by deep learning in recent years, bringing great improvements to this field. This revolution has benefited a set of applications in the field of transportation, for example traffic analysis applications and various driving assistance systems. Other applications are in the making, and will require further improvements, for instance a fully automated driving system. This thesis presents a set of methods for detecting and segmenting road users in images and videos. The presented methods tackle the challenges specific to the field of road traffic, i.e. difficult light and weather conditions, a high density of small objects as well as numerous partial occlusions. The first method is an object detection method. This method takes advantage of semisupervised annotations created by optical flow and background subtraction. These annotations are used to train the network to generate a saliency map that will serve two purposes. First, an attention process is used to focus the network on the areas of interest on the feature maps. Second, a binarization of the saliency map is performed to obtain a segmentation of the objects of interest in the image. This method is implemented in the CenterNet detector [1]. Due to the attention map that illuminates areas of interest in the image, we name our method SpotNet [2]. The second method presented proposes an architecture for video object detection by merging feature maps of temporally close frames. In order to merge the feature maps, we introduce a module composed of channel concatenation, 1×1 convolutions followed by channel reordering. This architecture as well as the fusion module are generic enough to be integrated into several detectors. Due to its speed and good performance, we use RetinaNet [3] as our base detector, and for this reason we name this method RN-VID [4]. Third, we present an extension as well as a combination of the two previous works. In this work, named FFAVOD, we implement the architecture of RN-VID in two modern detectors, CenterNet and SpotNet. We show that we can improve the results with multiple different base detectors. In addition, we improve the attention module of SpotNet and therefore improve the performance of the base SpotNet. Combining enhanced SpotNet with FFAVOD fusion module achieves state of the art on two road traffic datasets. Additionally, we compare the fusion module with different fusion strategies and demonstrate its usefulness.
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Guillaume-Alexandre Bilodeau et Nicolas Saunier |
URL de PolyPublie: | https://publications.polymtl.ca/9471/ |
Université/École: | Polytechnique Montréal |
Date du dépôt: | 14 avr. 2022 14:17 |
Dernière modification: | 01 oct. 2024 12:37 |
Citer en APA 7: | Perreault, H. (2021). Détection et segmentation des usagers de la route dans des images et vidéos [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/9471/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements