<  Back to the Polytechnique Montréal portal

Combinaison de la programmation par contraintes et de l'apprentissage par renforcement profond pour résoudre les tâches de planification IA classique

Dana Chaillard

Master's thesis (2022)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (2MB)
Show abstract
Hide abstract

Abstract

While there has been significant progress in general AI planning, certain domains remain out of reach of current typical AI planning systems. Recently, the use of deep reinforcement learning has allowed to push that frontier further. We try to help further these RL agents with the use of constraint programming with belief propagation. Constraint programming is a very good method to uncover the structure of a problem and we use that information to guide a reinforcement learning agent on a classical AI planning task, Floortile. Our agents using constraint programming can be separated into three types : those where the information is used in the observations, those where the information is used in the decision process and those where the information is used in the reward. Of these three types, only the second one achieves performances better than the control agent. However, these agents cannot work without constraint programming and don't generalize very well to other instances of the same problem. The first type achieves performances way below the control and the third one achieves about the same as the control.

Résumé

Bien qu'il y ait eu des progrès significatifs dans le domaine de la planification IA en général, certains domaines demeurent hors de portée des systèmes de planification IA actuels. Récemment, l'utilisation d'apprentissage par renforcement avec des réseaux de neurones profonds a permis de repousser cette frontière. Nous essayons de pousser cette frontière encore plus loin en utilisant la programmation par contraintes avec de la propagation de croyance. La programmation par contraintes est une très bonne méthode pour découvrir la structure d'un problème. On utilise cette information pour guider un agent d'apprentissage par renforcement sur un tâche de planification IA classique, Floortile. De nos agents avec de l'information de la CP on peut tirer trois types. Ceux où l'information est injectée dans les observations du monde. Ceux où l'information est ajoutée dans le choix de l'agent lorsqu'il utilise sa politique. Et enfin, ceux où l'information est ajoutée dans la récompense. De ces trois types seul le second obtient des performances supérieures à l'agent témoin. Cependant, ces agents ne peuvent pas se passer de programmation par contraintes pour continuer à fonctionner et ne généralisent pas très bien à d'autres exemplaires du même problème. Le premier type d'agent obtient des performances bien en-dessous de celles de l'agent témoin et le troisième agent les égale.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Gilles Pesant
PolyPublie URL: https://publications.polymtl.ca/10476/
Institution: Polytechnique Montréal
Date Deposited: 06 Feb 2023 14:43
Last Modified: 07 Feb 2024 05:25
Cite in APA 7: Chaillard, D. (2022). Combinaison de la programmation par contraintes et de l'apprentissage par renforcement profond pour résoudre les tâches de planification IA classique [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10476/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item