Thèse de doctorat (2024)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (11MB) |
Résumé
Les avancées en intelligence artificielle et en technologie de la robotique ont accéléré l’intégration de l’apprentissage par renforcement (RL) en robotique, permettant aux systèmes d’accomplir des tâches complexes dans des environnements difficiles avec une efficacité et une sécurité accrues. Les méthodes RL traditionnelles utilisent des fréquences de contrôle fixes, ce qui entraîne une utilisation inefficace des ressources informatiques. Par exemple, dans la conduite autonome sur des routes dégagées, des mises à jour fréquentes du contrôle sont inutiles, mais des fréquences fixes imposent des demandes informatiques constantes, entravant le déploiement de RL sur des ordinateurs embarqués aux ressources limitées. Cette inefficacité impacte également les fonctions de détection environnementale et de communication. Des fréquences de contrôle sous-optimales peuvent dégrader les performances, provoquant des réactions lentes aux changements ou un gaspillage de ressources par des actions excessives, entraînant une consommation d’énergie plus élevée et des échecs potentiels dans les applications sensibles au temps. Par conséquent, l’optimisation des fréquences de contrôle est cruciale pour les modèles RL dans des environnements complexes. Pour relever ces défis, nous proposons le cadre d’apprentissage par renforcement à pas de temps variable (VTS-RL), qui ajuste dynamiquement la fréquence de contrôle en fonction des exigences de la tâche. Cette approche réduit l’utilisation des ressources informatiques et garantit que les actions se produisent uniquement lorsque cela est nécessaire. La mise en oeuvre et l’évaluation de VTS-RL dans les systèmes robotiques sont difficiles en raison du manque de cadres spécifiques et d’implémentations de référence, car les processus de décision de Markov traditionnels (MDP) ne tiennent pas compte des intervalles de temps entre les actions, ce qui limite la recherche dans ce domaine. Nous introduisons deux algorithmes : Soft Elastic Actor-Critic (SEAC) et Multi-Objective Soft Elastic Actor-Critic (MOSEAC). SEAC améliore sa politique d’action en intégrant la durée des actions et en utilisant une politique de récompense novatrice pour minimiser la consommation d’énergie et le temps. Cette approche établit VTS-RL dans les systèmes robotiques, améliorant l’attribution de crédit et réduisant les frais généraux informatiques, ce qui le rend adapté aux déploiements à ressources limitées. Les tests de simulation valident l’efficacité de SEAC, démontrant des performances élevées et une charge informatique réduite par rapport à d’autres algorithmes RL à fréquence de contrôle fixe. MOSEAC, une version améliorée de SEAC, offre des vitesses d’entraînement plus rapides et une simplification du réglage des hyperparamètres tout en suivant les principes de la programmation réactive pour minimiser la consommation d’énergie et le temps. Il présente un schéma de récomvii pense adaptatif. Nous validons théoriquement son efficacité avec des garanties de performance, des analyses de convergence et de complexité. La formule de récompense adaptative équilibre l’efficacité énergétique et le temps d’accomplissement des tâches, explorant le front de Pareto en optimisation multi-objectif pour trouver des compromis optimaux. Les expériences avec Trackmania, un jeu de course vidéo, et AgileX Limo dans un environnement de test en intérieur démontrent l’efficacité de notre cadre à réduire les besoins informatiques. Enfin, nous passons en revue les caractéristiques clés, discutons des limitations et suggérons des directions de recherche futures.
Abstract
Artificial intelligence and robotics technology advancements have accelerated the integration of reinforcement learning (RL) in robotics, enabling systems to perform complex tasks in challenging environments with enhanced efficiency and safety. Traditional RL methods utilize fixed control frequencies, resulting in inefficient use of computational resources. For instance, in autonomous driving on clear roads, frequent control updates are unnecessary, yet fixed frequencies impose constant computing demands, hindering RL deployment on resource-constrained onboard computers. This inefficiency also impacts environmental sensing and communication functions. Suboptimal control frequencies can degrade performance, causing slow reactions to changes or resource wastage through excessive actions, leading to higher energy consumption and potential failures in time-sensitive applications. Therefore, optimizing control frequencies is crucial for RL models in complex environments. To address these challenges, we propose the Variable Time-Step Reinforcement Learning (VTSRL) framework, which dynamically adjusts the control frequency based on task requirements. This approach reduces computational resource usage and ensures actions occur only when necessary. Implementing and evaluating VTS-RL in robotic systems is challenging due to the lack of specific frameworks and reference implementations, as traditional Markov Decision Processes (MDPs) do not account for time intervals between actions, leading to limited research focus in this area. We introduce two algorithms: Soft Elastic Actor-Critic (SEAC) and Multi-Objective Soft Elastic Actor-Critic (MOSEAC). SEAC enhances its action policy by incorporating action duration and employing a novel reward policy to minimize energy consumption and time. This approach establishes VTS-RL in robotic systems, improving credit assignment and reducing computational overhead, making it suitable for resource-constrained deployments. Simulation tests validate SEAC’s efficacy, demonstrating high performance and reduced computational load compared with other fixed control frequency RL algorithms. MOSEAC, an enhanced version of SEAC, offers faster training speeds and simplified hyperparameter tuning while following reactive programming principles to minimize energy and time consumption. It features an adaptive reward scheme. We theoretically validate its effectiveness with performance guarantees, convergence, and complexity analysis. The adaptive reward formula balances energy efficiency and task completion time, exploring the Pareto front in multi-objective optimization to find optimal trade-offs. Experiments with Trackmania, a video racing game, and AgileX Limo in an indoor test environment demonstrate our framework’s effectiveness in reducing
computational requirements. Finally, we review key features and discuss limitations and future research directions.
| Département: | Département de génie informatique et génie logiciel |
|---|---|
| Programme: | Génie informatique |
| Directeurs ou directrices: |
Giovanni Beltrame |
| URL de PolyPublie: | https://publications.polymtl.ca/59033/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 18 juin 2025 11:54 |
| Dernière modification: | 31 juil. 2025 04:41 |
| Citer en APA 7: | Wang, D. (2024). Elastic Time Step Reinforcement Learning [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/59033/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
