<  Back to the Polytechnique Montréal portal

Deep Reinforcement Learning in Real-Time Environments

Yann Bouteiller

Masters thesis (2021)

[img] Terms of Use: All rights reserved.
Restricted to: Repository staff only until 19 October 2022.
Cite this document: Bouteiller, Y. (2021). Deep Reinforcement Learning in Real-Time Environments (Masters thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/6658/
Show abstract Hide abstract

Abstract

RÉSUMÉ : L’Apprentissage par Renforcement regroupe une famille d’algorithmes permettant de découvrir des contrôleurs performants. Ces algorithmes fonctionnent sur le principe d’essai-erreur, en maximisant la somme cumulative d’un signal dit de "récompense", conçu par le praticien. Dans des environnements simples et idéalisés vérifiant certaines propriétés, nombre de ces algorithmes sont mathématiquement garantis de découvrir un contrôleur optimal. Les récents progrès de l’Apprentissage Profond ont permis d’étendre avec succès les algorithmes d’Apprentissage par Renforcement à des environnements beaucoup plus complexes. Néanmoins, ces succès demeurent le plus souvent cantonnés à des applications très cadrées telles que le jeu de go, d’échecs, ou encore les simulations informatiques. Dans ce mémoire, nous nous intéressons à étendre le domaine d’applicabilité de la discipline aux environnements réels, afin de faciliter par exemple l’apprentissage de contrôleurs pour la robotique. Il est en effet difficile d’appliquer avec succès les algorithmes d’Apprentissage par Renforcement dans de tels environnements. En particulier, les environnements utilisés dans la littérature sont conçus pour être assimilables à des Processus Décisionnels Markoviens, sur lesquels se base toute la théorie de l’Apprentissage par Renforcement. Cependant, le monde réel est en général beaucoup trop complexe pour être naïvement assimilé à de tels objets idéaux. En particulier, il est vraisemblablement impossible d’observer l’intégralité de l’univers, le monde réel est non-stationnaire, et les évènements s’y déroulent de manière continue en temps-réel. Dans le cadre de ce mémoire, notre objectif est plus particulièrement d’étendre la théorie et la pratique de l’Apprentissage par Renforcement au domaine du temps-réel.----------ABSTRACT : Whereas all environments commonly used in the Reinforcement Learning (RL) literature are paused between transitions, it is simply not possible to pause the real world. Thus, action and observation delays commonly occur in many practical RL applications. In our central contribution, we study the anatomy of randomly delayed environments, and show that partially resampling trajectory fragments in hindsight allows for unbiased and low-variance off-policy multi-step value estimation. We apply this principle to derive Delay-Correcting Actor-Critic (DCAC), an algorithm based on Soft Actor-Critic with significantly better performance in environments with delays. This is shown theoretically and also demonstrated practically on a delay-augmented version of the MuJoCo continuous control benchmark. This contribution, presented in central chapter of this thesis, has been accepted as a conference paper at the International Conference on Learning Representations (ICLR 2021). In our second and more practical contribution, we develop RL environments in real-time applications. We provide a python helper, Real-Time Gym, that enables implementing delayed RL environments in the real world with minimal effort. We demonstrate this helper on applications such as robotics and real-time video-games. We further introduce a framework that we developed in order to train our real systems distantly on a High Performance Computing server, and present promising results on autonomous car racing tasks.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Academic/Research Directors: Giovanni Beltrame
Date Deposited: 19 Oct 2021 11:13
Last Modified: 19 Oct 2021 11:13
PolyPublie URL: https://publications.polymtl.ca/6658/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only