Thèse de doctorat (2024)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (9MB) |
Résumé
Le suivi multi-objets consiste à détecter et à attribuer une identité unique à des objets d’intérêt, tels que des piétons et des véhicules, dans une vidéo. Appliqué au génie des transports, il peut permettre d’obtenir les trajectoires des usagers de la route et notamment d’identifier des événements potentiellement dangereux qui ont été évités de justesse. La tâche de suivi peut se décomposer en deux sous-tâches : celle de détection qui consiste à localiser les objets à chaque trame et celle d’association qui consiste à déterminer les détections qui appartiennent au même objet. Cette thèse s’intéresse à la tâche de suivi multi-objets dans le cadre du domaine des transports et en particulier à la sous-tâche d’association. En effet, malgré l’introduction de nombreuses mesures de performance et de bases de données sur le suivi multi-objets, celles-ci présentent des biais. Tout d’abord, la mesure principale MOTA capture principalement la qualité de la détection au détriment de l’association. Ensuite, les bases de données contiennent principalement des vidéos où les objets d’intérêt ont des apparences variées et des mouvements linéaires. Cela a naturellement poussé à l’apparition de nouvelles méthodes de détection et a privilégié des mesures d’affinité basées sur des descripteurs visuels et sur des modèles de mouvement linéaire. La première étude présentée porte sur une méthodologie de comparaison entre des descripteurs visuels. Étant donnée une détection d’un objet à un instant d’une vidéo, l’objectif est de retrouver la détection correspondant au même objet à un second instant. Cette recherche est faite en décrivant les détections par un descripteur visuel et en comparant les vecteurs de représentation à l’aide d’une mesure d’affinité. Cette étude a montré que les approches à base de vecteurs de réidentification sont les plus performantes, en plus de présenter une grande robustesse vis-à-vis de l’écart temporel entre les détections et de leur qualité. Dans un second temps, une approche concurrente aux vecteurs de réidentification est présentée. En effet, ces vecteurs sont vulnérables aux cas d’occlusion lorsqu’un objet secondaire occulte un objet principal. Une localisation des objets à l’échelle du pixel permet de gérer plus exactement la sous-tâche d’association. En particulier, ce travail développe une mesure d’affinité mesurant la capacité à reconstruire une séquence de détections à partir d’une autre séquence de détections. Celle-ci repose sur des réseaux à mémoire spatio-temporelle [1] capables de retrouver la position d’un objet dans une trame adjacente. Cette mesure d’affinité est intégrée à un algorithme de suivi nommé MeNToS, pour Memory Network-based Tracker of Segments. Il atteint l’état de l’art sur deux jeux de données centrés sur les usagers de laroute. Enfin, dans un troisième temps, une autre approche concurrente aux vecteurs de réidentification est présentée. En effet, ces vecteurs sont aussi vulnérables au cas où les objets ont une apparence similaire. Une approche basée uniquement sur la position et le mouvement permet de gérer plus exactement la sous-tâche d’association. En particulier, ce travail développe une mesure d’affinité mesurant la capacité à discriminer des paires de séquences de détections appartenant au même objet ou non. Celle-ci repose sur les réseaux Transformer, qui ont été développés pour décrire des séquences et des ensembles et sont capables de retrouver des schémas en considérant le contexte. Cette mesure d’affinité est nommé TWiX, pour Tracklets in Windows et repose sur des paires, comme les fameuses barres de chocolat. L’algorithme de suivi C-TWiX intègre cette mesure d’affinité et atteint l’état de l’art sur trois jeux de données. Finalement, cette thèse présente une première analyse sur les vecteurs de description visuelle qui montre que les vecteurs de réidentification sont ceux qui sont les plus adéquats quant à l’association de données. Puis, deux approches innovantes sont proposées pour palier quelques faiblesses des vecteurs de réidentification. La première repose sur une approche générative et la seconde sur une approche purement discriminante.
Abstract
Multi-object tracking consists of detecting and assigning a unique identity to objects of interest in a video, such as pedestrians and vehicles. In the field of transportation, it returns the trajectories of road users and in particular helps to identify potentially dangerous events which have been narrowly avoided. The tracking task can be divided into two subtasks: that of detection which consists of locating the objects at each frame and that of association which consists of determining the detections which belong to the same object. This thesis focuses on the multi-object tracking task in the context of the transportation domain and in particular on the association subtask. Indeed, despite the introduction of numerous performance measures and datasets on multi-object tracking, they both present biases. First of all, the main measure MOTA, mainly captures the detection quality at the detriment of the association. Next, the datasets contain mainly videos where the objects of interest have diverse appearances and linear motions. This naturally led to the emergence of new detection methods and favored affinity measures based on visual descriptors and linear motion models. The first study presents a methodology for comparing visual descriptors. Given a detection of an object in a frame of a video, the objective is to find the detection corresponding to the same object in another frame. This analysis was done by describing the detections by a visual descriptor and by comparing the representation vectors using an affinity measure. This study shows that approaches based on re-identification vectors are the most efficient, in addition to presenting great robustness with regard to the temporal gap between detections and their quality. Secondly, a competing approach to re-identification vectors is presented. Indeed, these vectors are vulnerable to occlusion cases when a secondary object hides a main object. Localization at the pixel level makes it possible to manage the association subtask more precisely. In particular, this work develops an affinity measure evaluating the ability to reconstruct a sequence of detections from another sequence of detections. This is based on spatio-temporal memory networks [1] that are able to find the position of an object in an adjacent frame. This affinity measure was integrated into a tracking algorithm called MeNToS, for Memory Network-based Tracker of Segments. It achieves the state-of-the-art results on two datasets focused on road users. Finally, in a third step, another competing approach to re-identification vectors is presented. Indeed, these vectors are also vulnerable in the case where the objects have similar appearviii ances. Here, an approach based solely on position and motion allows the association subtask to be managed more accurately. In particular, this work developed an affinity measure evaluating the ability to discriminate pairs of sequences of detections belonging to the same object or not. This is based on Transformer networks, developed to describe sequences and sets and capable of recognizing patterns by considering the context. This affinity measure is called TWiX, for Tracklets in Windows and is based on pairs, like the famous chocolate bars. The C-TWiX tracking algorithm integrates this affinity measure and achieves the state-of-the-art results on three datasets. Finally, this thesis presents a first analysis on visual description vectors, which shows that the re-identification vectors are those which are the most adequate in terms of data association. Then, two innovative approaches are proposed to overcome some weaknesses of the re-identification vectors. The first one is based on a generative approach and the second one on a purely discriminative approach.
| Département: | Département de génie informatique et génie logiciel |
|---|---|
| Programme: | Génie informatique |
| Directeurs ou directrices: |
Guillaume-Alexandre Bilodeau |
| URL de PolyPublie: | https://publications.polymtl.ca/59164/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 18 juin 2025 11:54 |
| Dernière modification: | 12 août 2025 16:47 |
| Citer en APA 7: | Miah, M. N. (2024). Suivi multi-objets : au-delà des vecteurs de réidentification pour l'association de données [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/59164/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
