Deep Reinforcement Learning in Real-Time Environments

Yann Bouteiller

Mémoire de maîtrise (2021)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (15MB)

Afficher le résumé

Cacher le résumé

Résumé

L'Apprentissage par Renforcement regroupe une famille d'algorithmes permettant de découvrir des contrôleurs performants. Ces algorithmes fonctionnent sur le principe d'essai-erreur, en maximisant la somme cumulative d'un signal dit de "récompense", conçu par le praticien. Dans des environnements simples et idéalisés vérifiant certaines propriétés, nombre de ces algorithmes sont mathématiquement garantis de découvrir un contrôleur optimal. Les récents progrès de l'Apprentissage Profond ont permis d'étendre avec succès les algorithmes d'Apprentissage par Renforcement à des environnements beaucoup plus complexes. Néanmoins, ces succès demeurent le plus souvent cantonnés à des applications très cadrées telles que le jeu de go, d'échecs, ou encore les simulations informatiques. Dans ce mémoire, nous nous intéressons à étendre le domaine d'applicabilité de la discipline aux environnements réels, afin de faciliter par exemple l'apprentissage de contrôleurs pour la robotique. Il est en effet difficile d'appliquer avec succès les algorithmes d'Apprentissage par Renforcement dans de tels environnements. En particulier, les environnements utilisés dans la littérature sont conçus pour être assimilables à des Processus Décisionnels Markoviens, sur lesquels se base toute la théorie de l'Apprentissage par Renforcement. Cependant, le monde réel est en général beaucoup trop complexe pour être naïvement assimilé à de tels objets idéaux. En particulier, il est vraisemblablement impossible d'observer l'intégralité de l'univers, le monde réel est non-stationnaire, et les évènements s'y déroulent de manière continue en temps-réel. Dans le cadre de ce mémoire, notre objectif est plus particulièrement d'étendre la théorie et la pratique de l'Apprentissage par Renforcement au domaine du temps-réel.

Abstract

Whereas all environments commonly used in the Reinforcement Learning (RL) literature are paused between transitions, it is simply not possible to pause the real world. Thus, action and observation delays commonly occur in many practical RL applications. In our central contribution, we study the anatomy of randomly delayed environments, and show that partially resampling trajectory fragments in hindsight allows for unbiased and low-variance off-policy multi-step value estimation. We apply this principle to derive Delay-Correcting Actor-Critic (DCAC), an algorithm based on Soft Actor-Critic with significantly better performance in environments with delays. This is shown theoretically and also demonstrated practically on a delay-augmented version of the MuJoCo continuous control benchmark. This contribution, presented in central chapter of this thesis, has been accepted as a conference paper at the International Conference on Learning Representations (ICLR 2021). In our second and more practical contribution, we develop RL environments in real-time applications. We provide a python helper, Real-Time Gym, that enables implementing delayed RL environments in the real world with minimal effort. We demonstrate this helper on applications such as robotics and real-time video-games. We further introduce a framework that we developed in order to train our real systems distantly on a High Performance Computing server, and present promising results on autonomous car racing tasks.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Giovanni Beltrame
URL de PolyPublie:	https://publications.polymtl.ca/6658/
Université/École:	Polytechnique Montréal
Date du dépôt:	19 oct. 2021 11:13
Dernière modification:	25 sept. 2024 23:22

Citer en APA 7:	Bouteiller, Y. (2021). Deep Reinforcement Learning in Real-Time Environments [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/6658/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document