Mémoire de maîtrise (2022)
Document en libre accès dans PolyPublie |
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (2MB) |
Résumé
Bien qu'il y ait eu des progrès significatifs dans le domaine de la planification IA en général, certains domaines demeurent hors de portée des systèmes de planification IA actuels. Récemment, l'utilisation d'apprentissage par renforcement avec des réseaux de neurones profonds a permis de repousser cette frontière. Nous essayons de pousser cette frontière encore plus loin en utilisant la programmation par contraintes avec de la propagation de croyance. La programmation par contraintes est une très bonne méthode pour découvrir la structure d'un problème. On utilise cette information pour guider un agent d'apprentissage par renforcement sur un tâche de planification IA classique, Floortile. De nos agents avec de l'information de la CP on peut tirer trois types. Ceux où l'information est injectée dans les observations du monde. Ceux où l'information est ajoutée dans le choix de l'agent lorsqu'il utilise sa politique. Et enfin, ceux où l'information est ajoutée dans la récompense. De ces trois types seul le second obtient des performances supérieures à l'agent témoin. Cependant, ces agents ne peuvent pas se passer de programmation par contraintes pour continuer à fonctionner et ne généralisent pas très bien à d'autres exemplaires du même problème. Le premier type d'agent obtient des performances bien en-dessous de celles de l'agent témoin et le troisième agent les égale.
Abstract
While there has been significant progress in general AI planning, certain domains remain out of reach of current typical AI planning systems. Recently, the use of deep reinforcement learning has allowed to push that frontier further. We try to help further these RL agents with the use of constraint programming with belief propagation. Constraint programming is a very good method to uncover the structure of a problem and we use that information to guide a reinforcement learning agent on a classical AI planning task, Floortile. Our agents using constraint programming can be separated into three types : those where the information is used in the observations, those where the information is used in the decision process and those where the information is used in the reward. Of these three types, only the second one achieves performances better than the control agent. However, these agents cannot work without constraint programming and don't generalize very well to other instances of the same problem. The first type achieves performances way below the control and the third one achieves about the same as the control.
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Gilles Pesant |
URL de PolyPublie: | https://publications.polymtl.ca/10476/ |
Université/École: | Polytechnique Montréal |
Date du dépôt: | 06 févr. 2023 14:43 |
Dernière modification: | 28 sept. 2024 02:31 |
Citer en APA 7: | Chaillard, D. (2022). Combinaison de la programmation par contraintes et de l'apprentissage par renforcement profond pour résoudre les tâches de planification IA classique [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10476/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements