<  Retour au portail Polytechnique Montréal

Closing the Reality Gap by Estimating Dynamic Residuals with Gaussian Processes

Clément Garancini

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (12MB)
Afficher le résumé
Cacher le résumé

Résumé

L’apprentissage par renforcement (Reinforcement Learning, RL) s’est récemment imposé comme un cadre puissant pour résoudre des problèmes complexes de prise de décision, faisant de lui un candidat prometteur pour des applications de contrôle de systèmes mécaniques réels. Le déploiement de ces agents de Reinforcement Learning (RL) dans des environnements réels restant difficile en raison des coûts élevés, des risques et du temps requis pour l’entraînement direct sur les systèmes physiques, l’utilisation de la simulation pour l’entraînement s’est im-posé comme une l’approche standard, exploitant les capacités de calcul et de parallélisation des ordinateurs modernes pour développer des politiques ensuite transférées sur les systèmes réels. Cependant, malgré les progrès des simulateurs en matière de fidélité et des techniques de transfert des agents de la simulation vers la réalité, le déploiement des politiques RL sur des systèmes physiques reste limité par le réalité gap — c’est-à-dire le décalage entre le com-portement simulé et le comportement réel - lorsque ces systèmes présentent des dynamiques complexes. Ce mémoire explore une approche visant à combler cet écart entre simulateur et monde réel en améliorant le simulateur lui-même. Plus précisément, nous proposons une méthode reposant sur les processus Gaussiens (Gaussian Processes, GP) pour modéliser les résidus des dynamiques entre l’environnement simulé et le monde réel. En optimisant un GP à partir de données collectées dans le système réel et en l’ajoutant comme terme correctif dans la fonction de transition de la simulation, nous obtenons un simulateur enrichi capable de générer des trajectoires plus fidèles à la réalité. Cet environnement amélioré est ensuite utilisé pour entraîner de nouvelles politiques de RL plus robustes au transfert vers l’environnement cible et présentant de meilleure performance dans celui-ci. Afin de valider l’efficacité de cette approche, nous avons réalisé des expériences en simulation et sur un robot dans le monde réel. Nos résultats montrent non seulement que l’ajout du modèle correctif au simulateur permet de générer des trajectoires plus réalistes mais aussi que les politiques entrainées sur ce simulateur atteignent des performances quasi-optimales une fois transférées dans l’environnement réel. Ce travail souligne l’intérêt de modèles pro-babilistes, peu gourmands en données, pour améliorer le transfert de simulation vers réalité des politiques de RL, participant ainsi à réduire l’écart entre simulation et monde réel dans le cadre de l’apprentissage par renforcement appliqué à la robotique.

Abstract

Reinforcement Learning has recently emerged as a powerful framework for solving complex decision-making problems and made it a promising candidate for solving real-world tasks such as robotic control. However, the deployment of RL in real-world scenarios remains challeng-ing due to the high cost, risk, and time associated with training directly on physical systems. To avoid these constraint, simulation-based training has become a standard approach, lever-aging fast, parallelizable environments to develop policies that are then transferred to real hardware. Despite advancements in simulation fidelity and sim-to-real transfer techniques, the deployment of RL policies to hardware systems with highly complex dynamics contin-ues to face the persistent issue of the reality gap — the discrepancy between simulated and real-world behaviors. This thesis investigates a real-to-sim approach to bridge this gap by enhancing the simulator itself. Specifically, we propose a method based on Gaussian Processes to model the residual dynamics between the simulated and real environments. By learning a GP from real-world interaction data and integrating it into the simulation loop as an additive correction term, we produce an enhanced simulator that generates system behaviors closer to the one encountered in the real world. This improved simulation environment is then used to train new RL policies more robust to deployment in the target environment. We validate the effectiveness of this approach with both simulation and physical experiments. Our results demonstrate that the Gaussian process enhancement of the environment enable generation of more realistic trajectories and the training of policies that achieve near-optimal performance in the target real-world environment. This work highlights the value of data-efficient, probabilistic modeling for improving Sim-to-Real transfer and contributes to closing the loop between simulation and real-world deployment in RL for robotic systems.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Giovanni Beltrame
URL de PolyPublie: https://publications.polymtl.ca/67838/
Université/École: Polytechnique Montréal
Date du dépôt: 14 nov. 2025 15:31
Dernière modification: 14 nov. 2025 18:25
Citer en APA 7: Garancini, C. (2025). Closing the Reality Gap by Estimating Dynamic Residuals with Gaussian Processes [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/67838/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document