The Challenges of Learning Representations for Reinforcement Learning Without Experience Replay

Antoine Clavaud

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (4MB)

Afficher le résumé

Cacher le résumé

Résumé

Ce mémoire aborde la question de l’apprentissage de représentations appliqué à l’apprentis-sage par renforcement, dans le cas particulier où l’on ne s’autorise pas à stocker les expériences rencontrées par l’agent. L’apprentissage par renforcement, aussi appelé Reinforcement Lear-ning (RL), a pour but de résoudre optimalement un problème de décision séquentiel. Ce dernier prend place dans un environnement dans lequel évolue un agent qui peut interagir avec l’environnement au travers d’actions. L’apprentissage par renforcement consiste à trou-ver une politique d’actions à prendre compte tenu des observations de l’environnement faites par l’agent et qui maximise les récompenses obtenues par celui-ci. Nous nous intéressons ici plus particulièrement au cas dans lequel le stockage d’expériences pour réutilisation future n’est pas autorisé. Une telle contrainte est dénommée Apprentissage par Renforcement sur un Flux d’Expériences, ou Streaming Deep Reinforcement Learning dans la littérature. Bien qu’à ses origines l’apprentissage par renforcement (alors complètement dépourvu d’apprentissage profond et de réseaux neuronaux) a été étudié dans le contexte de flux d’expériences, ce n’est que très récemment que ce contexte a été ré-introduit dans le paradigme de l’approxima-tion de fonctions par réseaux de neurones. Ce nouveau paradigme permet de se débarrasser de la nécessité d’avoir accès à des ressources informatiques importantes, car sans stockage d’expériences l’entraînement n’a plus besoin d’avoir lieu sur une carte graphique, ou Graphi-cal Processing Unit (GPU). Cependant, le stockage et l’agrégation d’expériences constituent l’une des techniques principales pour réduire l’instabilité rencontrée lors de l’entraînement d’agents via des réseaux de neurones. Aussi, en interdisant le stockage d’expériences, l’insta-bilité due à l’inhérente non-stationnarité de l’apprentissage par renforcement est fortement exacerbée, ce qui limite les performances des agents. L’apprentissage de représentations est l’un des domaines majeurs de la recherche en intel-ligence artificielle. Le but de telles méthodes est d’obtenir des plongements (représentation d’un objet comme une image, un graphe, du texte, etc. sous forme d’un vecteur) de bonne qualité, au travers d’algorithmes et architectures spécifiques, afin de faciliter l’entraînement de réseaux de neurones et d’en améliorer les performances. Ces tâches nécessitent bien sou-vent d’avoir à disposition des quantités considérables de données, pas forcément étiquetées, et d’avoir accès à d’importantes ressources informatique pour les traiter. Dans le cadre de l’apprentissage par renforcement, de telles techniques ont été utilisées et de nombreux travaux montrent qu’elles augmentent les performances des agents qui les incorporent. L’apprentissage par renforcement se prête particulièrement bien notamment aux méthodes d’apprentissage non-supervisé basées sur la prédiction de la dynamique de l’environnement, c’est à dire baséessur la prédiction des états futurs de l’environnement étant donnée une séquence d’actions. Ces méthodes sont bien documentées dans la littérature, mais pas dans le cadre de l’appren-tissage par renforcement sur un flux d’expériences. Or, ce cadre étant encore plus instable que l’apprentissage par renforcement profond classique, ajouter de telles méthodes d’appren-tissage de représentations semble essentiel à stabiliser davantage l’apprentissage et améliorer les performances des agents. Peu de travaux étudient l’apprentissage de représentations sur un flux de données, et aucun n’est appliqué à l’apprentissage par renforcement. Devant cette situation, nous choisissons d’investiguer dans quelle mesure l’apprentissage de représentations peut être appliqué à l’apprentissage par renforcement sur un flux d’expériences dans le but d’améliorer les performances des agents entraînés dans un tel contexte. Afin de traiter ce sujet, nous avons décidé de partir d’un agent d’apprentissage par renforce-ment augmenté par un objectif d’apprentissage de représentations déjà existant et performant, puis de l’adapter au contexte de l’apprentissage par renforcement sur un flux d’expériences. Cette approche consiste à combiner l’architecture appelée Self-Predictive Representations (SPR) à un agent entraîné sur un flux d’expériences. Étant donné que SPR n’a pas été conçu pour ce contexte d’apprentissage par renforcement, nous nous attentdions à ce que la forte non-stationnarité du problème soit un obstacle important au succès de notre méthode. Pour cette raison, nous avons décidé de rendre le problème de plus en plus stable au travers d’expé-riences successives, afin de déterminer quelles seraient les conditions nécessaires de stabilité de cette approche. Surprenamment, nous avons constaté qu’en imposant que la politique soit apprise uniquement sur un flux d’observations, peu importe le niveau de stabilité de la tâche d’apprentisage de représentations les performances des agents sont toutes moins bonnes que notre base de comparaison (agent entraîné sur un flux de données, sans tâche auxiliaire). Nous avons également confirmé que sans cette contrainte d’apprentissage sur un flux d’expé-riences, la même tâche secondaire mène à l’apprentissage de représentations riches et utiles aux agents. Aussi, nous concluons que bien que dans le cadre classique de l’apprentissage par renforcement ajouter une tâche secondaire d’apprentissage de représentations est bénéfique pour les performances, ce n’est pas le cas lorsque l’on se restreint à entraîner des agents sur des flux d’expériences. En effet, nos résultats suggèrent que l’optimisation jointe des deux tâches interfère négativement avec les performances de l’agent. Ce mémoire présente également les différentes stratégies d’optimisation ayant été considérées, sans pour autant qu’aucune n’amène de meilleures performances.

Abstract

This thesis tackles the problem of learning representations for Reinforcement Learning (RL), in the specific case where we constrain ourselves to not store experiences for later re-use. The goal of RL is to find the optimal solution to a sequential decision problem. Sequential decision problems involve an environment in which an agent can evolve and interact through actions. RL then consists in finding a policy that gives the best action to take given any observation of the environment’s state, so that the reward received by the agent is maximized when it follows the policy. Here, we focus more specifically on the case where storing experiences is prohibited, thus making experience replay forbidden. Such a constrained setting is called Streaming Deep Reinforcement Learning. Even though in its beginnings RL was studied in this setting as deep neural networks were not part of the field yet, it was only very recently that the streaming setting was reconsidered for modern deep reinforcement learning. This new paradigm makes it possible to train deep RL agent without relying on costly Graphical Processing Units (GPUs) capable of handling large batch sizes and storing large amounts of agent experiences. However, storing and replaying experiences is one of the main methods used to mitigate RL’s inherent non-stationary training. Therefore, prohibiting the use of experience replay will lead to less stable training and thus poorer performances. Representation learning is one of the core aspects in Artificial Intelligence (AI) research. The goal of such methods is to derive good quality embeddings (vectors in a high dimensional space representing objects like images, graphs or words) through algorithms and specific network architectures so that the downstream task learned by a neural network is easier and faster to learn. Representation learning tasks often require large quantities of data to be available, possibly not labeled, as well as large amounts of compute. Many papers have shown that including representation learning tasks to RL objectives yields better performing agents. Reinforcement learning is especially well suited for dynamics prediction-based unsupervised learning tasks. These tasks consists in predicting the next states of the environment given a current state and a sequence of next actions. These methods are well documented in the literature, but not for streaming deep reinforce-ment learning. However, the streaming context being even less stable than its regular coun-terpart, adding unsupervised representation learning objectives to it seems like a necessary measure to mitigate instability during training and further improve the field of streaming deep RL. Few works study how to learn representations from a stream of data, and none are specifically focused on RL. Given this rather empty current state of the literature on the matter, we decided to investigate how we can add unsupervised representation learning tech-niques from the standard RL literature to the streaming deep RL setting, so as to improve downstream performances. In order to tackle this question, we decided to use an existing well-performing representation learning augmented RL agent and use it in the streaming setting of reinforcement learning. This approach consists in combining the Self-Predictive Representations (SPR) architecture with a streaming agent. Because SPR was not originally designed to be used in the streaming setting of RL, we expected non-stationarity to be a major obstacle to this method’s success. Thus, we designed experiments with increasing levels of stability in order to determine what would be the minimal conditions required for a stable representation learning task to be ben-eficial for the agents. Surprisingly, we found that imposing that the policy be learned in the streaming setting, no amount of stability is ever enough for the representation learning task to help the agent reach better performances than our streaming agent baseline (without any auxiliary task). We also confirmed that without this streaming constraint, having the same representation learning objective helped agents learn better representations, leading them to reach better performances. As such, we concluded that although in standard reinforcement learning having a secondary representation learning objective improves performances, it is not the case for streaming agents. Indeed, our results suggest that jointly optimizing both tasks gives rise to interference that hinders the performance of the agents. We also present the many considerations we had regarding the optimization part of the problem, although none of the ones we tried helped getting better performance.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Sarath Chandar Anbil Parthipan
URL de PolyPublie:	https://publications.polymtl.ca/67120/
Université/École:	Polytechnique Montréal
Date du dépôt:	14 nov. 2025 15:30
Dernière modification:	15 nov. 2025 23:11

Citer en APA 7:	Clavaud, A. (2025). The Challenges of Learning Representations for Reinforcement Learning Without Experience Replay [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/67120/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document