<  Retour au portail Polytechnique Montréal

Deep Reinforcement Learning for Environment-Aware Mapless Navigation

Charles Dansereau

Mémoire de maîtrise (2023)

[img] Accès restreint: Personnel autorisé jusqu'au 10 mai 2025
Conditions d'utilisation: Tous droits réservés
Demander document
Afficher le résumé
Cacher le résumé

Résumé

La navigation autonome est la capacité d’un robot ou d’un véhicule à se déplacer d’un point à un autre sans intervention humaine. Avec les progrès récents en vision par ordinateur et en robotique, les robots mobiles sont déployés dans de plus en plus de domaines et de scénarios. Cependant, l’état de l’art existant repose sur des méthodes qui peuvent être coûteuses en termes de calcul, nécessitant des processeurs puissants voire même des unités de traitement graphique embarqués, et supposent des environnements statiques. Cela limite ainsi fortement le déploiement de tels robots dans le monde réel, où les environnements complexes contiennent souvent des objets dynamiques. Ceci est d’autant plus vrai pour les véhicules aériens de petite taille qui n’ont pas la puissance de calcul nécessaire ou qui disposent d’une énergie embarquée limitée. Pour les robots plus petits, des méthodes de navigation réactives existent, mais elles peuvent monopoliser une proportion significative des ressources du robot. Dans des travaux récents, l’apprentissage par renforcement profond (ARP) a été utilisé pour naviguer efficacement dans des environnements dynamiques et a montré des résultats prometteurs. Cependant, cette approche bout-en-bout est beaucoup moins robuste et n’a pas atteint les performances des méthodes classiques. Cette thèse adopte une approche combinant à la fois des méthodes traditionnelles et l’ARP pour permettre à des robots aux ressources limitées de naviguer en évitant les obstacles. L’ARP est appliqué pour apprendre un méchanisme d’attention permettant de sélectionner l’information importante à la navigation et ignorer les données des capteurs non pertinentes pour l’évitement d’obstacles, rendant les algorithmes de navigation plus efficaces et plus rapides. Nous implémentons and et évaluons agent pour l’ARP sur un drone en simulation et sur un micro-rover pour démontrer que l’approche est applicable sur diférent robots. Tout d’abord, plusieurs agents sont conçus avec différentes représentations d’état, espaces d’action et fonctions de récompense, et sont entraînés avec divers algorithmes d’ARP, architectures de politique et hyperparamètres. Ensuite, en utilisant les résultats de l’exploration initiale, les deux agents les plus performants sont sélectionnés et évalués à la fois de manière quantitative et qualitative, et sont comparés à une approche de navigation traditionnelle. Les agents ont développé deux comportements différents. Un agent a appris à limiter de manière agressive la méthode de navigation pour ne traiter que les données de détection et télémétrie par la lumière (lidar) critiques pour l’évitement des collisions. L’autre agent a appris une politique plus conservatrice, permettant à la méthode de navigation d’utiliser en moyenne 16% des données du lidar, en sélectionnant les informations pertinentes à la fois pour l’évitement des collisions et pour une meilleure recherche de trajectoire. En plus de cette réduction des données utilisées, la méthode proposée a réduit le temps de calcul nécessaire pour la navigation d’un facteur de 2.7x.

Abstract

Autonomous navigation is the ability of a robot or vehicle to move from one point to another without human interference. With the recent progress in computer vision and robotics, mobile robots are deployed in more and more areas and scenarios. However, the existing stateof- the-art consists of methods that can be computationally expensive, requiring powerful CPUs or even GPUs to be embedded, and assume static environments, limiting strongly the deployment of such robots into the real world, where complex environments often contain dynamic objects. This is even more true for micro-aerial vehicles that do not have the computational resources or have limited onboard energy. For smaller robots, map-less reactive navigation methods exist, but they can monopolize a significant proportion of the robot’s resources. In recent works, Deep Reinforcement learning (DRL) was used to perform efficient navigation in dynamic environments and has shown promising results. Still, this end-to-end approach is much less robust and has not reached the performance of classical state-of-the-art methods. This thesis takes the approach of combining both traditional methods and DRL to realize map-less navigation with obstacle-avoidance on resource-constrained robots. DRL is applied to learn a focus mechanism, which aims to select in a smart way which information is relevant for navigation and discard the less important sensory data, making the navigation algorithms more efficient and faster. We implement and evaluate a DRL agent both on a drone in simulation and a micro-rover in the real world to show it can be applied to different robots. First, multiple agents are designed with different state representations, action spaces and reward functions, and are trained with various DRL algorithms, policy architectures, and hyperparameters. Second, using the results of the initial exploration, the two best-performing agents are selected and evaluated both in a quantitative and qualitative way, and are compared to a traditional navigation approach. The agents evolved two different behaviors. One agent learned to aggressively limit the navigation method to only process LiDAR data which is critical for collision avoidance. The other agent learned a more conservative policy, making the navigation method use 16% of the LiDAR data in average, selecting relevant information for both collision avoidance and better path-finding. In addition to using less sensory data, this method reduced the global processing time of the navigation pipeline by a factor of 2.7x, while maintaining the same navigation capabilities.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Gabriela Nicolescu
URL de PolyPublie: https://publications.polymtl.ca/57051/
Université/École: Polytechnique Montréal
Date du dépôt: 10 mai 2024 10:55
Dernière modification: 11 mai 2024 12:40
Citer en APA 7: Dansereau, C. (2023). Deep Reinforcement Learning for Environment-Aware Mapless Navigation [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/57051/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document