Reward Shaping in Reinforcement Learning with Constraint Programming

Chao Yin

Mémoire de maîtrise (2024)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

Le façonnage de la récompense est une technique utilisée en apprentissage par renforcement pour modifier le comportement de l’agent en donnant des récompenses à des comportements désirables. Cette technique est aussi utilisée pour accélérer l’entraînement de l’agent en guidant l’agent dans la bonne direction pendant l’entraînement. Par contre, il est typique que la récompense soit façonnée manuellement à l’aide des experts humains qui peuvent identifier des comportements désirables. Nous proposons un façonnage de la récompense basé sur le potentiel qui sert à automatiser le façonnage de récompense à partir d’un modèle du problème en programmation par contraintes. En utilisant notre méthode, nous pouvons spécifier des comportements désirables à partir de l’interface de programmation par contraintes et l’utiliser pour peaufiner un réseau de neurones génératif préentraîné.

Abstract

Reward shaping has been applied in reinforcement learning to shape the behavior of an agent by rewarding desirable behaviors. It can also be used to speed up the training of the agent by pointing the agent in the right direction during training. However, reward shaping is usually handcrafted with the help of a human expert who is able to identify the desired behaviors. It also needs to be done with care as poorly designed reward shaping can train the agent to have unforeseen behavior. We propose a potential-based reward shaping method to automate the creation of shaped rewards by modeling a given problem using constraint programming. Using our method, we are able to specify desirable behaviors through the interface of constraint programming and use it to finetune a pretrained neural network.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie Informatique
Directeurs ou directrices:	Gilles Pesant et Quentin Cappart
URL de PolyPublie:	https://publications.polymtl.ca/61334/
Université/École:	Polytechnique Montréal
Date du dépôt:	18 juin 2025 10:45
Dernière modification:	30 juil. 2025 18:30

Citer en APA 7:	Yin, C. (2024). Reward Shaping in Reinforcement Learning with Constraint Programming [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/61334/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document