Mémoire de maîtrise (2023)
Accès restreint: Personnel autorisé jusqu'au 4 mars 2025 Conditions d'utilisation: Tous droits réservés |
Résumé
L’apprentissage par renforcement profond (DRL) a connu un interet croissant dans divers domaines, notamment la robotique, les jeux videos, et les systèmes de recommandation. Cet intérêt pour l’apprentissage par renforcement profond peut être attribué à ses capacités d’automatisation et son aptitude à traiter des tâches complexes de prise de décision séquentielle, ce qui s’alignent sur la tendance industrielle croissante à l’automatisation, à la personnalisation et à La robotisation. Récemment on a assisté à des réussites notables des applications de DRL, telles que la victoire d’AlphaGO contre le champion du monde du jeu de Go, la victoire d’AlphaStar contre des professionels humains dans le jeu StarCraft II, et d’autres innovations importantes comme AlphaZero, OpenAI Five et AlphaFold. Ces réussites ont captivé à la fois les professionnels et les chercheurs, les poussant à développer davantage les techniques de DRL et à améliorer leur fiabilité afin d’accélérer leur adoption dans les industries. Par conséquent, la DRL est devenue un concept important dans le domaine de l’apprentissage automatique. Malgré les nombreux avantages de l’apprentissage par renforcement profond et la pression croissante de l’industrie pour l’adopter, le DRL est toujours confronté à des défis lorsqu’il est déployé dans des environnements de production; soulignant la nécessité d’approches d’assurance qualité fiables pour les DRL. Ces défis découlent de la nature unique de DRL. Tout d’abord, la conception architecturale unique et le comportement d’apprentissage complexe de la DRL la distinguent des solutions d’apprentissage profond traditionnelles. Par conséquent, les approches d’assurance qualité développées pour l’apprentissage profond peuvent ne pas s’appliquer directement à la DRL. Deuxièmement, le réglage des hyperparamètres d’un modèle DRL est essentiel pour obtenir des performances optimales. Cependant, la détermination des valeurs appropriées pour ces paramètres n’est pas une tâche triviale, et de nombreux aspects du réglage des hyperparamètres restent des défis ouverts. Par exemple, trouver le bon équilibre entre l’exploration et l’exploitation ou déterminer le nombre optimal d’itérations pour atteindre l’efficacité de l’échantillon sont des domaines de recherche en cours. Troisièmement, la nature non stationnaire de l’environnement DRL introduit la possibilité d’une baisse significative des performances d’un système DRL pendant son exploitation.
Abstract
Deep reinforcement learning (DRL) has seen growing interest in various fields, including robotics, video games and recommender systems. The recent surge of interest in DRL can be attributed to its capacity for automation and its ability to handle complex sequential decision-making tasks, which align with the growing industrial trend towards automation, personalization, and robotization. Recently, there have been notable successes of DRL applications, such as AlphaGO defeating the world champion in the game of Go, AlphaStar surpassing human grandmasters in playing StarCraft II, and other significant breakthroughs like AlphaZero, OpenAI Five, and AlphaFold. These accomplishments have captivated both practitioners and researchers, driving them to further develop DRL techniques and enhance their trustworthiness to accelerate its adoption in industries. Consequently, DRL has emerged as a prominent concept in the field of machine learning. Despite the numerous advantages of deep reinforcement learning and its growing industry adoption, DRL still faces challenges when deployed in production environments; highlighting the need for reliable quality assurance approaches for DRL. These challenges stem from the unique nature of DRL. First, the unique architectural design and complex learning behavior of DRL distinguish it from traditional deep learning solutions. Second, tuning the hyperparameters of a DRL model is critical for achieving optimal performance. However, determining appropriate values for these parameters is not a trivial task, and many aspects of hyperparameter tuning remain open challenges. For instance, finding the right balance between exploration and exploitation or determining the optimal number of iterations for achieving sample efficiency are ongoing areas of research. Third, the non-stationary nature of the DRL environment introduces the possibility of drifts, wherein the environment’s parameters exhibit continuous variability. Severe drift can lead to a significant drop in the performance of a DRL system. This performance degradation can be particularly problematic in critical applications where maintaining a high level of performance is essential.
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Foutse Khomh |
URL de PolyPublie: | https://publications.polymtl.ca/55098/ |
Université/École: | Polytechnique Montréal |
Date du dépôt: | 04 mars 2024 13:20 |
Dernière modification: | 07 oct. 2024 10:00 |
Citer en APA 7: | Bouchoucha, R. (2023). Quality Assurance in Deep Reinforcement Learning Applications [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/55098/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements