<  Back to the Polytechnique Montréal portal

Deep Reinforcement Learning in Real-Time Environments

Yann Bouteiller

Master's thesis (2021)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (15MB)
Show abstract
Hide abstract

Abstract

Whereas all environments commonly used in the Reinforcement Learning (RL) literature are paused between transitions, it is simply not possible to pause the real world. Thus, action and observation delays commonly occur in many practical RL applications. In our central contribution, we study the anatomy of randomly delayed environments, and show that partially resampling trajectory fragments in hindsight allows for unbiased and low-variance off-policy multi-step value estimation. We apply this principle to derive Delay-Correcting Actor-Critic (DCAC), an algorithm based on Soft Actor-Critic with significantly better performance in environments with delays. This is shown theoretically and also demonstrated practically on a delay-augmented version of the MuJoCo continuous control benchmark. This contribution, presented in central chapter of this thesis, has been accepted as a conference paper at the International Conference on Learning Representations (ICLR 2021). In our second and more practical contribution, we develop RL environments in real-time applications. We provide a python helper, Real-Time Gym, that enables implementing delayed RL environments in the real world with minimal effort. We demonstrate this helper on applications such as robotics and real-time video-games. We further introduce a framework that we developed in order to train our real systems distantly on a High Performance Computing server, and present promising results on autonomous car racing tasks.

Résumé

L'Apprentissage par Renforcement regroupe une famille d'algorithmes permettant de découvrir des contrôleurs performants. Ces algorithmes fonctionnent sur le principe d'essai-erreur, en maximisant la somme cumulative d'un signal dit de "récompense", conçu par le praticien. Dans des environnements simples et idéalisés vérifiant certaines propriétés, nombre de ces algorithmes sont mathématiquement garantis de découvrir un contrôleur optimal. Les récents progrès de l'Apprentissage Profond ont permis d'étendre avec succès les algorithmes d'Apprentissage par Renforcement à des environnements beaucoup plus complexes. Néanmoins, ces succès demeurent le plus souvent cantonnés à des applications très cadrées telles que le jeu de go, d'échecs, ou encore les simulations informatiques. Dans ce mémoire, nous nous intéressons à étendre le domaine d'applicabilité de la discipline aux environnements réels, afin de faciliter par exemple l'apprentissage de contrôleurs pour la robotique. Il est en effet difficile d'appliquer avec succès les algorithmes d'Apprentissage par Renforcement dans de tels environnements. En particulier, les environnements utilisés dans la littérature sont conçus pour être assimilables à des Processus Décisionnels Markoviens, sur lesquels se base toute la théorie de l'Apprentissage par Renforcement. Cependant, le monde réel est en général beaucoup trop complexe pour être naïvement assimilé à de tels objets idéaux. En particulier, il est vraisemblablement impossible d'observer l'intégralité de l'univers, le monde réel est non-stationnaire, et les évènements s'y déroulent de manière continue en temps-réel. Dans le cadre de ce mémoire, notre objectif est plus particulièrement d'étendre la théorie et la pratique de l'Apprentissage par Renforcement au domaine du temps-réel.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Giovanni Beltrame
PolyPublie URL: https://publications.polymtl.ca/6658/
Institution: Polytechnique Montréal
Date Deposited: 19 Oct 2021 11:13
Last Modified: 23 Apr 2023 18:46
Cite in APA 7: Bouteiller, Y. (2021). Deep Reinforcement Learning in Real-Time Environments [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/6658/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item