Mémoire de maîtrise (2025)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (8MB) |
Résumé
L’apprentissage par renforcement utilisant un modèle (MBRL) résout généralement de manière plus efficace des problèmes que l’apprentissage par renforcement sans modèle (MFRL). La commande prédictive (MPC), qui peut être formulée comme un algorithme de MBRL, peut être utilisé pour résoudre des problèmes où l’agent à pour but d’atteindre une position précise. Nous proposons la méthode QRNN-ASNN-CEM/PF pour modéliser, résoudre et planifier des problèmes de contrôle et de robotique avec des actions continues ou discrètes. L’algorithme proposé utilise un réseau de neurones quantile (QRNN) comme un modèle de l’environnement qui prédit une distribution sur les prochains états. De plus, la méthode utilise un réseau de neurones pour générer des actions (ASNN) au lieu d’échantillonner une distribution uniforme, et soit le filtrage particulaire (PF) ou la méthode de l’entropie croisée (CEM) pour optimiser les séquences d’actions dans MPC. Nous comparons QRNN-ASNNCEM/ PF à plusieurs algorithmes qui sont ablations de la méthode proposée, ainsi qu’à de méthodes provenant de la littérature du MBRL, MFRL et de l’optimisation de trajectoire.
Abstract
Model-based reinforcement learning (MBRL) generally solves tasks more sample-efficiently than model-free reinforcement learning (MFRL). Model predictive control (MPC), which can be formulated as an MBRL algorithm, can be used to solve problems with a clear goal state. In this work, we propose QRNN-ASNN-CEM/PF method to model, solve, and plan in control and robotics problems with continuous or discrete action spaces. The method uses a model a quantile regression neural network (QRNN) as a model of the environment that predicts a distribution over next states. It also uses an action sequence neural network (ASNN) to generate actions instead of sampling a uniform distribution, and either particle filtering (PF) or the cross-entropy method (CEM) to optimize the action sequences in MPC. We compare it to multiple ablations of the proposed method, as well as algorithms from the MBRL, MFRL, and trajectory optimization literature.
| Département: | Département de génie électrique |
|---|---|
| Programme: | Génie électrique |
| Directeurs ou directrices: |
Marco Bonizzato |
| URL de PolyPublie: | https://publications.polymtl.ca/68406/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 11 févr. 2026 09:27 |
| Dernière modification: | 11 févr. 2026 09:39 |
| Citer en APA 7: | Leblanc, N. (2025). QRNN-ASNN-CEM/PF: A Sample Efficient Model Predictive Control Method In Model Based Reinforcement Learning for Modeling, Control, and Planning in Robotics [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/68406/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
