<  Retour au portail Polytechnique Montréal

Effective Reward Specification in Deep Reinforcement Learning

Julien Roy

Thèse de doctorat (2024)

[img] Accès restreint: Personnel autorisé jusqu'au 22 août 2025
Conditions d'utilisation: Tous droits réservés
Afficher le résumé
Cacher le résumé

Résumé

Au cours de la dernière décennie, les progrès dans le domaine de l’apprentissage par ren-forcement profond en ont fait l’un des outils les plus efficaces pour résoudre les problèmes de prise de décision séquentiels. Cette approche combine l’excellence de l’apprentissage profond à traiter des signaux complexes avec l’adaptabilité de l’apprentissage par renforcement (RL) pour s’attaquer à une panoplie de problèmes de contrôle. Lorsqu’il effectue une tâche, un agent de RL reçoît des récompenses ou des pénalités en fonction de ses actions. Cet agent cherche à maximiser la somme de ses récompenses, permettant ainsi aux algorithmes d’IA de découvrir des solutions novatrices dans plusieurs domaines. Cependant, cette focalisation sur la maximisation de la récompense introduit également une difficulté importante: une spéci-fication inappropriée de la fonction de récompense peut considérablement affecter l’efficacité du processus d’apprentissage et entraîner un comportement indésirable de la part de l’agent. Dans cette thèse, nous présentons des contributions au domaine de la spécification de ré-compense en apprentissage par renforcement profond sous forme de quatre articles. Nous commençons par explorer l’apprentissage par renforcement inverse, qui modélise la fonction de récompense à partir d’un ensemble de démonstrations d’experts, et proposons un algo-rithme permettant une implémentation et un un processus d’optimisation efficaces. Ensuite, nous nous penchons sur le domaine de la composition de récompense, visant à construire des fonctions de récompense efficaces à partir de plusieurs composantes. Nous prenons le cas de la coordination multi-agent, et proposons des tâches auxiliaires qui ajoutent des signaux de récompense sous forme de biais inductifs qui permettent de découvrir des politiques perfor-mantes dans des environnements coopératifs. Nous investiguons également l’utilisation de l’optimisation sous contrainte et proposons un cadre pour une spécification plus directe et intuitive de la fonction de récompense. Finalement, nous nous tournons vers le problème de l’apprentissage par renforcement pour la découverte de nouveaux médicaments et présentons une approche multi-objectif conditionnée permettant d’explorer tout l’espace des objectifs. Ci-après, nous commençons par présenter une revue la littérature sur les stratégies de spécifi-cation, identifions les limitations de chacune de ces approches et proposons des contributions originales abordant le problème de l’efficacité et de l’alignement en apprentissage par renforce-ment profond. La spécification de récompense représente l’un des aspects les plus difficiles de l’application de l’apprentissage par renforcement dans les domaines réels. Pour le moment, il n’existe pas de solution universelle à ce défi complexe et nuancé; sa résolution nécessite la sélection des outils les plus appropriés pour les exigences spécifiques de chaque application.

Abstract

In the last decade, Deep Reinforcement Learning has evolved into a powerful tool for complex sequential decision-making problems. It combines deep learning’s proficiency in processing rich input signals with reinforcement learning’s adaptability across diverse control tasks. At its core, an RL agent seeks to maximize its cumulative reward, enabling AI algorithms to uncover novel solutions previously unknown to experts. However, this focus on reward max-imization also introduces a significant difficulty: improper reward specification can result in unexpected, misaligned agent behavior and inefficient learning. The complexity of accurately specifying the reward function is further amplified by the sequential nature of the task, the sparsity of learning signals, and the multifaceted aspects of the desired behavior. In this thesis, we present contributions to the field of reward specification in deep rein-forcement learning in the form of four articles. We start by exploring inverse reinforcement learning, which models the reward function from a set of expert demonstrations, and intro-duce an algorithm allowing for an efficient implementation and training procedure. Then, we delve into the realm of reward composition, aiming to construct effective reward functions from various components. We take the case of multi-agent coordination and propose auxil-iary tasks that augment the reward signal with inductive biases leading to high-performing policies in cooperative multi-agent environments. We also investigate the use of constrained optimization and propose a framework for direct reward specification when using a specific constraint family. Lastly, we turn our attention to the problem of RL for drug discovery and present a goal-conditioned, multi-objective approach to explore the entire objective space of molecular candidates. Throughout this document, we survey the literature on effective reward specification strate-gies, identify core challenges relating to each of these approaches, and propose original con-tributions addressing the issue of sample efficiency and alignment in deep reinforcement learning. Reward specification represents one of the most challenging aspects of applying reinforcement learning in real-world domains. Our work underscores the absence of a uni-versal solution to this complex and nuanced challenge; solving it requires selecting the most appropriate tools for the specific requirements of each unique application.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Christopher J. Pal et Pierre-Luc Bacon
URL de PolyPublie: https://publications.polymtl.ca/58357/
Université/École: Polytechnique Montréal
Date du dépôt: 22 août 2024 10:37
Dernière modification: 25 sept. 2024 16:50
Citer en APA 7: Roy, J. (2024). Effective Reward Specification in Deep Reinforcement Learning [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/58357/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document