Master's thesis (2023)
|
Open Access to the full text of this document Terms of Use: All rights reserved Download (114MB) |
Abstract
The task of instance segmentation in an image involves locating objects of interest precisely, as well as determining their category, by associating each one with a mask covering it. It is therefore a important part of image interpretation using computer vision. This task is useful in a large variety of situations. For example, in the context of intelligent transportation, it is crucial to know in real-time where other road users are. The use of mask approximations, instead of binary masks with a label on each pixel, greatly increases detection speed without losing much information, thanks to the reduction in the number of parameters used to represent the masks. We investigate two forms of mask approximation. First, we focused on polygons, a fairly classical form of approximation. By predicting a small number of vertices, we can quickly obtain a relevant mask. Starting with the CenterPoly method, we designed a new learning process using a loss function that uses Intersection-on-Union for polygons based on the Weiler-Atherton algorithm, as well as a loss function based on the order of the polygon vertices. In addition, we studied the impact of the geometric representation of polygon vertices for mask approximation, comparing Cartesian and polar representations. We show that the Cartesian representation gives slightly better results for our method. Finally, we proposed a oracle evaluation to more accurately assess the quality of polygonal masks generated by decoupling object detection from polygon prediction. CenterPolyV2 significantly improves the accuracy of road user segmentation over CenterPoly.
Résumé
La segmentation d’instances d’objets dans une image vise à détecter précisément la localisation des objets d’intérêt, ainsi que leur catégorie, en donnant pour chacun un masque qui les recouvre. C’est donc une tâche très important pour obtenir une interprétation détaillée d’une image avec des techniques de vision par ordinateur. Dans le cadre des transports intelligents par exemple, cela permet de savoir en temps réel où se trouvent les autres usagers de la route. L’utilisation d’approximations de masques, au lieu de masques binaires avec une étiquette sur chaque pixel, permet d’augmenter fortement la vitesse de détection sans pour autant perdre beaucoup d’informations, grâce à la réduction du nombre de paramètres utilisés pour la représentation des masques. Nous avons donc exploré deux formes d’approximation de masques. Dans un premier temps, nous nous sommes focalisé sur les polygones, une forme assez classique d’approximation. La prédiction d’un petit nombre de sommets permet d’obtenir rapidement un masque pertinent. À partir de la méthode CenterPoly, on emploie un nouveau processus d’apprentissage avec une fonction de perte qui utilise l’Intersection-sur-Union pour les polygones, à partir de l’algorithme de Weiler-Atherton, ainsi qu’avec une fonction de perte basée sur l’ordre des sommets des polygones. De plus, on étudie l’impact de la représentation géométrique des sommets des polygones pour l’approximation des masques, en comparant les représentations cartésiennes et polaires. Cela permet de montrer que dans le cas de notre méthode, la représentation cartésienne donne des résultats légèrement meilleurs. Enfin, nous proposons une évaluation par oracle de détection pour évaluer plus précisément la qualité des masques polygonaux générés en découplant la détection des polygones de la construction du masque. CenterPolyV2 améliore significativement les performances de segmentation des usagers de la route par rapport à CenterPoly sur les jeux de données en milieu urbain utilisés.
Department: | Department of Computer Engineering and Software Engineering |
---|---|
Program: | Génie informatique |
Academic/Research Directors: |
Guillaume-Alexandre Bilodeau |
PolyPublie URL: | https://publications.polymtl.ca/54181/ |
Institution: | Polytechnique Montréal |
Date Deposited: | 13 Nov 2023 10:20 |
Last Modified: | 17 Mar 2025 13:33 |
Cite in APA 7: | Jodogne Del Litto, K. (2023). Segmentation d'instances d'objets par approximation de masques [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/54181/ |
---|---|
Statistics
Total downloads
Downloads per month in the last year
Origin of downloads