<  Retour au portail Polytechnique Montréal

Suivi d'objets par caractéristiques locales encodant la structure

Wassim Bouachir

Thèse de doctorat (2014)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (2MB)
Afficher le résumé
Cacher le résumé

Résumé

Durant les deux dernières décennies, le suivi visuel d'objets a retenu une attention considérable de la communauté de la vision par ordinateur. Cet intérêt accru s'explique par les avancées importantes réalisées dans la modélisation de contenu visuel et par la large gamme d'applications utilisant les algorithmes de suivi (vidéosurveillance, robotique, indexation multimédia, interaction homme/machine, etc.). Bien que de nombreuses méthodes sont proposées dans la littérature, le suivi d'objet demeure un problème non résolu à cause du nombre élevé de facteurs environnementaux. Cette thèse présente de nouvelles idées et méthodes pour suivre un objet en mouvement dans des scénarios du monde réel. Elle vise à résoudre les principales difficultés de suivi dans des environnements non contraints, où la seule connaissance disponible sur la cible est sa position sur la première trame de la séquence vidéo. Les problèmes de suivi traités comprennent l'occultation de la cible, l'apparition de distracteurs, les rotations, les changements des conditions d'illumination et les changements d'apparence de la cible. Dans notre travail, nous présentons des algorithmes de suivi complets, ainsi que des procédures génériques pouvant être intégrées dans d'autres méthodes de suivi. Les méthodes proposées dans cette thèse s'appuient sur les points caractéristiques SIFT (Scale Invariant Features Transform) pour assurer la distinctivité du modèle d'apparence et son invariance aux changements des conditions d'illumination. Premièrement, nous présentons un algorithme qui combine une approche de recherche probabiliste par caractéristiques de couleurs avec un suivi déterministe par points caractéristiques. La recherche probabiliste consiste à un filtre de particules appliqué dans une première étape pour réduire la région de détection des caractéristiques locales et simplifier leur appariement. La prédiction finale repose ensuite sur l'appariement entre les descripteurs locaux de la cible et ceux détectés dans la région de recherche réduite sur la trame courante. L'évaluation qualitative et quantitative sur plusieurs séquences vidéos démontre la validité de la méthode proposée et sa compétitivité avec des algorithmes de suivi populaires de la littérature. En second lieu, nous présentons un nouvel algorithme de suivi nommé SAT (Structure-Aware Tracker). Comme son nom l'indique, SAT utilise un modèle d'apparence qui tient compte de la structure interne de l'objet suivi. Notre idée clé est inspirée de travaux antérieurs sur un nouveau paradigme de suivi, dit orienté contexte. Dans le suivi orienté contexte, la structure de la scène est encodée par les relations géométriques entre la cible et d'autres éléments l'entourant. Dans SAT, nous encodons la structure de l'objet en exploitant la disposition spatiale de ses points caractéristiques. Cette technique permet d'atteindre une stabilité de suivi notable, même lorsque la cible est partiellement occultée. D'autre part, nous proposons une méthode discriminative pour évaluer la qualité de suivi itérativement. Lorsque l'évaluation montre une qualité acceptable, le modèle d'apparence est adapté aux éventuels changements d'apparence de la cible. Notons que la procédure d'évaluation proposée est généralisable pour la majorité des algorithmes de suivi, vu qu'elle est indépendante du modèle d'apparence principal de la cible. En dernier lieu, nous présentons un troisième algorithme de suivi nommé SCFT (Salient Collaborating Features Tracker). Cette méthode exploite les descripteurs d'une manière optimale pour capturer la structure interne de l'objet et tenir compte des changements de pose et d'échelle. En effet, SCFT utilise les orientations dominantes et les échelles caractéristiques des points SIFT pour calculer les rotations bidimensionnelles de l'objet et estimer sa taille. En outre, nous proposons d'évaluer la saillance des points caractéristiques durant le suivi afin de baser les prédictions sur les caractéristiques locales les plus fiables. On note que la procédure d'évaluation de saillance peut être adoptée par d'autres méthodes de suivi basées sur le vote des éléments locaux. Dans la partie expérimentale de ce travail, nous réalisons plusieurs tests confirmant la robustesse des méthodes présentées. Nos expériences montrent que l'exploitation efficace des descripteurs locaux de points caractéristiques permet de prédire avec précision la position de la cible, malgré les facteurs perturbateurs de la scène. Par ailleurs, les algorithmes proposés (notamment SAT et SCFT) ne sont pas affectés par l'occultation partielle, vu qu'un nombre réduit de caractéristiques locales visibles suffit pour prédire l'état global de l'objet. Les évaluations comparatives de nos méthodes confirment la pertinence des idées développées dans cette thèse, en démontrant que nous surpassons une variété d'algorithmes récents de la littérature dans divers scénarios difficiles de suivi.

Abstract

Object tracking is a central problem in computer vision with many applications, such as automated surveillance, robotics, content-based video indexation, human-computer interaction, etc. During the two last decades, we observed an increasing interest in developing novel solutions for the tracking problem. This interest is explained by the significant progress achieved in feature extraction and visual modeling. Despite numerous methods proposed in the literature, object tracking remains an unsolved problem due to the large number of environmental perturbation factors. This thesis presents novel ideas and methods for object tracking in real world scenarios. We aim to address the main tracking difficulties in unconstrained environments, including target occlusion, presence of distractors, object rotations, illumination changes, and target appearance change. Our work proposes complete tracking algorithms that may be adopted directly by several tracking systems, as well as generic procedures that are relevant to the development of future tracking algorithms. The proposed algorithms rely on SIFT (Scale Invariant Features Transform) keypoints due to their distinctiveness and invariance to illumination changes and image noise. Firstly, we present a novel tracking algorithm whose prediction combines a color-based probabilistic approach with a deterministic keypoint matching method. During the first algorithmic step, we apply probabilistic tracking through particle filtering. This allows to reduce the target search space while simplifying local matches between the reference model and candidate regions. The target position is then found by matching keypoints and selecting the candidate region (particle) having the best matching score. Qualitative and quantitative evaluations on challenging video sequences show the validity of the proposed tracker and its competitiveness with popular state-of-the-art trackers. Secondly, we present a new tracker named SAT (Structure-Aware Tracker). The proposed algorithm uses a novel appearance model to encode the internal structure of the target. Our idea of representing the target structural properties is inspired by previous works on context tracking. According to the context tracking approach, it is necessary to consider the target context to ensure the tracker robustness. Thereby, context trackers base their predictions on the structure of the scene, encoded by the geometric relations between the target and surrounding elements. SAT is different from context trackers, in the sense that it encodes the object internal structure by exploiting the object keypoints spatial layout. This technique allows to achieve robust and stable tracking, especially when the target is partly occluded. Moreover, we propose a discriminative method for evaluating the tracking quality after each prediction. Every time the verification procedure shows a good tracking quality, the target appearance model is updated to be adapted to possible appearance changes. Note that the quality evaluation procedure of SAT is generalizable for a wide variety of tracking algorithms, since it does not depend on the target main appearance model. Furthermore, we introduce SCFT (Salient Collaborating Features Tracker), a novel tracking method that exploits keypoint descriptors efficiently to handle the target pose and scale changes. More concretely, the proposed method uses the information on the main orientation and the detection scale of the local feature to compute respectively in-plane rotations and scale changes. On the other hand, SCFT evaluates local features saliency in order to distinguish between good features and outliers, and base the prediction on the most reliable ones. Our saliency evaluation method can be used directly or adapted for several existing tracking methods, where the target state is found through local features votes. Our experimental work includes multiple tests on challenging video sequences, showing the robustness of the presented methods. Through the performed experiments, we demonstrate that our efficient exploitation of local descriptors ensures a high tracking precision, under several environmental perturbation factors. Moreover, the proposed methods (especially SAT and SCFT) are not affected by partial occlusions, since in this case, the global target state is effectively predicted using a few number of visible local features. We performed extensive comparative evaluations on challenging video sequences, against recent state-of-the-art methods. The obtained results support the relevance of the proposed ideas, demonstrating that we outperform recent methods in various real world scenarios.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Guillaume-Alexandre Bilodeau
URL de PolyPublie: https://publications.polymtl.ca/1583/
Université/École: École Polytechnique de Montréal
Date du dépôt: 18 mars 2015 15:42
Dernière modification: 09 nov. 2022 09:57
Citer en APA 7: Bouachir, W. (2014). Suivi d'objets par caractéristiques locales encodant la structure [Thèse de doctorat, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/1583/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document