Mémoire de maîtrise (2024)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (1MB) |
Résumé
Le façonnage de la récompense est une technique utilisée en apprentissage par renforcement pour modifier le comportement de l’agent en donnant des récompenses à des comportements désirables. Cette technique est aussi utilisée pour accélérer l’entraînement de l’agent en guidant l’agent dans la bonne direction pendant l’entraînement. Par contre, il est typique que la récompense soit façonnée manuellement à l’aide des experts humains qui peuvent identifier des comportements désirables. Nous proposons un façonnage de la récompense basé sur le potentiel qui sert à automatiser le façonnage de récompense à partir d’un modèle du problème en programmation par contraintes. En utilisant notre méthode, nous pouvons spécifier des comportements désirables à partir de l’interface de programmation par contraintes et l’utiliser pour peaufiner un réseau de neurones génératif préentraîné.
Abstract
Reward shaping has been applied in reinforcement learning to shape the behavior of an agent by rewarding desirable behaviors. It can also be used to speed up the training of the agent by pointing the agent in the right direction during training. However, reward shaping is usually handcrafted with the help of a human expert who is able to identify the desired behaviors. It also needs to be done with care as poorly designed reward shaping can train the agent to have unforeseen behavior. We propose a potential-based reward shaping method to automate the creation of shaped rewards by modeling a given problem using constraint programming. Using our method, we are able to specify desirable behaviors through the interface of constraint programming and use it to finetune a pretrained neural network.
| Département: | Département de génie informatique et génie logiciel |
|---|---|
| Programme: | Génie Informatique |
| Directeurs ou directrices: |
Gilles Pesant |
| URL de PolyPublie: | https://publications.polymtl.ca/61334/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 18 juin 2025 10:45 |
| Dernière modification: | 30 juil. 2025 18:30 |
| Citer en APA 7: | Yin, C. (2024). Reward Shaping in Reinforcement Learning with Constraint Programming [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/61334/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
