<  Retour au portail Polytechnique Montréal

Event-based Perception with Structured Light

Seyed-Ehsan Marjani-Bajestani

Thèse de doctorat (2024)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (14MB)
Afficher le résumé
Cacher le résumé

Résumé

La précision d’un robot mobile dans la perception de son environnement est étroitement liée à la méthode utilisée pour mesurer les distances relatives. Il est crucial d’utiliser un dispositif de mesure 3D rapide et robuste si un robot en mouvement rapide utilise ces données pour créer une carte de la zone tout en se localisant simultanément (SLAM1). Parmi les méthodes de reconstruction environnementale 3D de pointe, les approches basées sur la vision ont été largement développées. Les caméras RGB et RGB-D sont peu coûteuses et couramment utilisées en robotique. Cependant, elles présentent des limitations inhérentes : elles nécessitent un bon éclairage, souffrent de flou de mouvement, ont une plage dynamique relativement faible (pouvant entraîner une saturation en cas de changements de conditions d’éclairage) et peuvent nécessiter une large bande passante en fonction de la résolution et de la fréquence d’image. Pour pallier ces limitations, des capteurs tels que le Light Detection And Ranging (LiDAR) et les caméras événementielles ont été introduits. Les dispositifs LiDAR émettent un rayonnement laser sur la scène et capturent les signaux réfléchis pour obtenir une représentation 3D de l’environnement, déterminant ainsi les distances des points en 3D. Malgré leur grande précision, les LiDAR ne capturent pas de données couleur et ne peuvent pas ajuster dynamiquement le compromis entre détail, précision et vitesse. Leur faible densité de sortie limite la capacité à obtenir des données plus denses sans augmenter le temps de mesure. Les caméras événementielles (ECs) sont des capteurs bio-inspirés qui détectent les mouvements rapides et les changements de luminosité de manière asynchrone, similaire à l’oeil humain. Bien que les ECs ne capturent pas d’images complètes, elles peuvent détecter le mouvement beaucoup plus rapidement que les capteurs RGB standard, ce qui les rend précieuses pour les projets nécessitant une détection rapide des mouvements. En raison de leurs avantages, les ECs sont particulièrement utiles pour les mesures rapides de profondeur 3D. Cependant, elles ne fournissent pas de données dans des situations statiques. L’objectif est d’introduire une méthode capable de générer des nuages de points colorés avec des compromis variables de vitesse et de résolution pour créer des cartes de profondeur dans des environnements difficiles (dynamiques et faiblement éclairés), même lorsque la caméra (ou l’objet cible) est stationnaire. Cette recherche présente une méthode utilisant une caméra événementielle et un projecteur 1Simultaneous Localization And Mapping Digital Light Processing (DLP) pour capturer des événements dans l’espace 3D. Le projecteur DLP projette des motifs de lumière structurée sur la scène, variant en type, fréquence et couleur/longueur d’onde. La caméra événementielle capture les réflexions de ces motifs, permettant la création de nuages de points 3D basés sur la triangulation. Cette configuration permet également de capturer la couleur de la scène simultanément, produisant un nuage de points coloré. Le commutation dynamique des motifs projetés permet de contrôler la bande passante. Le système bénéficie de l’utilisation d’une caméra monochrome haute résolution et peut incorporer des données couleur au besoin. En utilisant cette configuration, nous avons atteint des vitesses de balayage couleur jusqu’à 1,4 kHz et des balayages de profondeur basés sur les pixels jusqu’à 4 kHz, résultant en un flux d’événements marqués avec couleur et profondeur, ainsi que des images et une sortie de nuage de points coloré. Cette méthode est applicable dans diverses conditions environnementales, qu’elles soient statiques ou dynamiques. Elle offre des mesures 3D haute résolution comparables aux LiDAR (dans la plage du millimètre), avec des vitesses de mesure plus rapides (capturant des événements en microsecondes) et inclut de manière cruciale des données couleur. Elle offre également un contrôle sur les compromis de résolution et de vitesse d’acquisition.

Abstract

The accuracy of a mobile robot in perceiving its surroundings is closely related to the method used for measuring relative distances in the environment. It is crucial to use a fast and reliable 3D measurement device when a fast-moving robot relies on this data for Simultaneous Localization and Mapping (SLAM). Among state-of-the-art 3D environmental reconstruction methods, vision-based approaches have been highly developed. RGB and RGB-D cameras are inexpensive and commonly used in robotics. However, they have inherent limitations: they require good illumination, suffer from motion blur, have a relatively low dynamic range (leading to saturation under changing lighting conditions), and can demand high bandwidth depending on resolution and frame rate. To address these limitations, sensors such as Light Detection And Ranging (LiDAR) and event-based cameras have been introduced. LiDAR devices emit laser light onto the scene and capture the reflected signals to obtain a 3D representation of the environment, determining distances to 3D points. Despite their high accuracy, LiDARs do not capture color data and cannot dynamically adjust the trade-off between detail, accuracy, and speed. Their sparse output limits the ability to obtain denser data without increasing measurement time. Event-based cameras (ECs) are bio-inspired sensors that detect rapid movements and changes in brightness asynchronously, similar to the human eye. Although ECs do not capture full images, they can detect motion much faster than standard RGB sensors, making them valuable for projects requiring fast movement detection. Due to their advantages, ECs are particularly useful for fast 3D depth measurements. However, they do not provide data in static situations. The goal is to introduce a method capable of generating colored point clouds with variable speed/resolution trade-offs for creating depth maps of challenging environments (dynamic and low-light), even when the camera (or target object) is stationary. This research introduces a method using an EC and a Digital Light Processing (DLP) projector to capture events in 3D space. The DLP projector projects Structured Light (SL) patterns onto the scene, varying in type, frequency, and light color/wavelength. The EC captures reflections of these patterns, enabling triangulation-based 3D point cloud creation. This setup also allows for capturing the color of the scene simultaneously, producing a colorful point cloud. Dynamic switching of projected patterns enables bandwidth control. The system benefits from using a high-resolution monochrome camera and can incorporate color data as needed. Using this setup, we achieved color scanning speeds up to 1.4 kHz and pixel-based depth scanning up to 4 kHz, resulting in a stream of events stamped with color and depth, along with frames and a colorful point cloud output. This method is applicable across various environmental conditions, whether static or dynamic. It offers high-resolution 3D measurements comparable to LiDAR (in the millimeter range), with faster measurement speeds (capturing events in microseconds), and crucially includes color data. It also provides control over the resolution and acquisition speed trade-offs.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Giovanni Beltrame
URL de PolyPublie: https://publications.polymtl.ca/59466/
Université/École: Polytechnique Montréal
Date du dépôt: 16 juin 2025 11:43
Dernière modification: 31 juil. 2025 11:30
Citer en APA 7: Marjani-Bajestani, S.-E. (2024). Event-based Perception with Structured Light [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/59466/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document