Apprentissage de modèles probabilistes pour la vision stéréoscopique en temps réel

Lucas Berthou

Mémoire de maîtrise (2012)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (11MB)

Afficher le résumé

Cacher le résumé

Résumé

Il existe de nombreuses approches pour capturer des scènes en trois dimensions, la plus couramment utilisée est d'avoir recours à la stéréoscopie, qu'elle soit active ou passive. Le principe sous-jacent à de telles techniques est toujours le même et consiste à retrouver des correspondances aux travers différentes prises de vues. La recherche de ces correspondances aboutit à la création de cartes de disparités. Nous présentons ici une étude de différentes approches, aussi bien passive qu'active, pour construire de telles cartes. Nous nous intéressons également aux modèles probabilistes qui permettent leur débruitage et l'amélioration des résultats obtenus. Enfin, nous proposons également une approche basée sur l'utilisation de modèles de base et la combinaison de différentes techniques de calcul de disparités pour construire notre propre modèle. Il existe deux critères d'évaluation pour les approches de numérisation tridimensionnelle : le temps de traitement et la qualité des captures. Contrairement à d'autres systèmes cherchant à optimiser seulement l'un de ces deux critères, les résultats des travaux présentés ici sont obtenus en concentrant nos efforts sur la qualité mais aussi sur le temps nécessaire aux calculs. Pour cette dernière raison, nous avons choisi d'utiliser des techniques de parallélisation massive sur processeur graphique (\ac{GPGPU}). Nous étudierons donc des implémentations parallélisées et optimisées pour traiter nos images stéréoscopiques ou nos cartes de disparités, tels que l'algorithme du Census ou de Viterbi, entièrement sur un processeur graphique. Enfin nous verrons comment combiner divers sources d'informations telles qu'une Kinect et une caméra stéréo pour obtenir la meilleure qualité de carte de disparités possible. Nous verrons également un montage optimisé pour la numérisation de visages et l'évaluation et la comparaison de nouveaux modèles.

Abstract

Among the various existing strategies to capture 3D information out of a scene, the most commonly used is stereoscopy, either active or passive. Underneath theses strategies there is always the same principle of finding corresponding points across captured views. Dense corresponding points are used to generate disparity map that can then be transformed in a depth map. This shows the importance of finding good approaches to build theses disparity maps. We will explore several approaches both active and passive to do so. We also present various probabilistic models that allow to denoise data and improve the quality of our disparity maps. We will also introduce a new way of combining these models and various strategies of getting disparity to build our own new model. We present a probabilistic framework to compute disparity maps focusing on both quality, efficiency and speed. To reduce the time needed for computing our disparity maps we chose to use general purpose computing on graphics processing units techniques to massively parallelize our algorithms. Hence we will present some optimized parallelized implementation of algorithms to treat both stereoscopic images and disparity maps such as Census algorithm or Viterbi, such that all the processing is done on a GPU. Finally we show how to combine various sources by adding a Kinect to our model based on stereo camera to improve either the quality of our outputted disparity map or the time required by our algorithms. We will also present a mount optimized for face scanning and new models evaluation and comparison.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Christopher J. Pal
URL de PolyPublie:	https://publications.polymtl.ca/991/
Université/École:	École Polytechnique de Montréal
Date du dépôt:	26 mars 2013 15:36
Dernière modification:	01 oct. 2024 12:33

Citer en APA 7:	Berthou, L. (2012). Apprentissage de modèles probabilistes pour la vision stéréoscopique en temps réel [Mémoire de maîtrise, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/991/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document