<  Back to the Polytechnique Montréal portal

Visual Odometry System for Drones Assisted by a Deep Neural Network

Olivier Brochu Dufour

Masters thesis (2021)

[img] Terms of Use: All rights reserved.
Restricted to: Repository staff only until 19 October 2022.
Cite this document: Brochu Dufour, O. (2021). Visual Odometry System for Drones Assisted by a Deep Neural Network (Masters thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/6581/
Show abstract Hide abstract

Abstract

RÉSUMÉ L'utilisation de drones devient de plus en plus courante pour de nombreux secteurs industriels. Toutefois, certaines limitations techniques, comme la navigation dans des environnements dépourvus de signal GPS, peuvent constituer un obstacle à leur adoption. La recherche dans le domaine de l'odométrie visuelle évolue rapidement et pourrait apporter des solutions à ce type de problèmes. Les techniques actuelles d'odométrie visuelle sont généralement composées d’étapes permettant l'extraction et la recherche de points d’intérêts dans la séquence d’images ou la minimisation d’erreurs photométriques afin de reconstruire les matrices de transformation décrivant le mouvement du véhicule. Bien que populaires, les solutions actuelles peuvent souffrir d'une accumulation d'erreurs importantes et peuvent être coûteuses en termes de calcul. De nouvelles recherches utilisant des réseaux neuronaux profonds ont démontré des résultats prometteurs et pourraient éventuellement offrir des solutions aux lacunes existantes de ces techniques dites « géométriques ». Les techniques d'odométrie visuelle profonde actuelles combinent généralement des réseaux neuronaux convolutifs et des réseaux de neurones récurrents séquentiels afin de déduire l'odométrie visuelle d'une séquence vidéo donnée. L'objectif de ce projet de recherche est de développer un système intelligent capable d'estimer l'odométrie visuelle d'un drone en temps réel. Le système intelligent utilise une nouvelle architecture neuronale profonde appelée SelfAttentionVO pour estimer, à partir d’une séquence vidéo, le mouvement d'une caméra fixée à un véhicule. Un utilitaire d'inférence capture le flux vidéo diffusé par le véhicule et utilise les prédictions de SelfAttentionVO faite sur les images de la vidéo pour assembler une estimation complète de la trajectoire. Bien que le système ne soit pas actuellement optimisé pour fonctionner sur un ordinateur embarqué, l'utilitaire d'inférence peut être utilisé sur un ordinateur de bureau ordinaire, offrant ainsi une alternative viable. SelfAttentionVO a été entraîné sur les ensembles de données KITTI et Mid-Air en utilisant une fonction d’objectif basée sur l'erreur quadratique moyenne. L'architecture utilise un réseau neuronal convolutionnel, pour effectuer l'extraction de points d’intérêts dans l'image et utilise à la fois un réseau de type « long short-term memory » (LSTM) et un module d'attention multi-têtes pour modéliser les dépendances séquentielles de la vidéo.----------ABSTRACT Drone use is becoming more common in many industrial sectors, but technical limitations like navigation in GPS denied environments can be a barrier to adoption. Research in the field of visual odometry is rapidly evolving and could provide solutions to GPS-less drone navigation. Current state-of-the-art visual odometry techniques use standard geometry-based pipelines involving image feature extraction and matching (or photometric error minimization) and transformation matrix estimation. Although popular, current solutions can suffer from significant drift, accumulation and some can be computationally expensive. New research using deep neural networks has shown promising performances and could eventually offer a solution to the shortcomings of existing geometry-based techniques. Deep visual odometry techniques combine convolutional neural networks and sequence modelling networks like recurrent neural networks (RNNs) to build an understanding of the scene and infer visual odometry from a given video sequence. The objective of this research project is to develop an intelligent system capable of estimating the visual odometry of a drone in real time. The intelligent system uses a novel deep neural architecture called SelfAttentionVO to estimate, from consecutive video frames, the egomotion of a camera rigidly attached to a vehicle’s body. An inference utility captures the live video feed from a drone and uses SelfAttentionVO’s predictions on the video frames to assemble a complete trajectory estimation. Although the system is not currently optimized to run on an onboard computer, the ability of the Inference Utility to estimate real-time visual odometry from a video feed using a desktop computer provides a viable alternative. SelfAttentionVO was trained on the KITTI and Mid-Air datasets using mean squared error loss. The architecture uses a convolutional neural network to perform image features extraction and couples a long short-term memory (LSTM) network to a multi-head attention module to model the sequential dependencies of the video. Test results showed that SelfAttentionVO converges 48% faster than similar model DeepVO. Compared with DeepVO, it also revealed a reduction of 22% in mean translational drift (KITTI Translation Error) from the ground truth and an improvement of 12% in mean translational absolute trajectory error.

Open Access document in PolyPublie
Department: Département de génie mécanique
Academic/Research Directors: Sofiane Achiche and Abolfazl Mohebbi
Date Deposited: 19 Oct 2021 11:20
Last Modified: 19 Oct 2021 11:20
PolyPublie URL: https://publications.polymtl.ca/6581/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only