Paramétrisation d'une méthode de production pilotée par la demande avec un algorithme d'apprentissage par renforcement

Louis Duhem

Mémoire de maîtrise (2022)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (8MB)

Afficher le résumé

Cacher le résumé

Résumé

Avec l'augmentation des exigences clients et une demande plus diversifiée, le domaine industriel fait face à de nouveaux enjeux en termes de production et satisfaction client. Il s'agit d'optimiser les niveaux de stock tout en réduisant les temps de livraison. Néanmoins, les anciennes méthodes de production ne sont plus suffisantes pour répondre à ces nouveaux objectifs. Les industriels cherchent donc à innover et s'intéressent à de nouvelles méthodes basées sur de nouvelles règles de production. Le Demand Driven Material Requirements Planning (ou DDMRP) est un méthode de production pilotée par la demande qui s'inscrit dans cette nouvelle aire d'innovation industrielle. Basée sur des règles simples, elle tend à réduire les niveaux de stock et les temps de livraison en s'appuyant sur la demande réelle. Cependant, cette méthode est encore assez récente. Par conséquent, sa documentation est encore assez limitée. En particulier, sa paramétrisation lui fait défaut : il peut paraître difficile, dans le cas d'une implémentation du DDMRP dans un cas pratique, de paramétrer correctement l'algorithme. Le sujet de cette étude est la paramétrisation de la méthode DDMRP à l'aide d'un algorithme d'apprentissage par renforcement. Ce projet vise à apporter des ajustements dynamiques à des seuils et horizons de détection de pics afin d'assister et améliorer la paramétrisation de la méthode de production. Un agent d'apprentissage par renforcement est implémenté dans un environnement géré en DDMRP. Cet agent vise également à augmenter les performances du DDMRP. Il est notamment question d'optimiser les stocks et améliorer la satisfaction client. L'agent, dérivé et adapté d'un algorithme de Branching Deep Q-Learning, est intégré à une modélisation d'atelier géré en DDMRP. Cet atelier est représenté à l'aide d'une simulation à événements discrets et est repris d'un modèle déjà existant. Le projet est entièrement réalisé avec le langage Python sur l'éditeur de code VS Code. Nous utilisons les librairies classiques de Python, et intégrons en particulier la librairie Keras du module Tensorflow afin de créer l'agent. L'agent développé est testé sur des environnements d'essai avant d'être intégré à la simulation en DDMRP. Il est intégré à un modèle sans agent, qui correspond au modèle de Ptak et Smith. Une fois l'agent intégré et validé, nous effectuons d'abord des expériences en lien avec les paramètres de l'apprentissage par renforcement. Ces expériences nous permettent de construire un agent efficace dans un environnement DDMRP. Ensuite, nous cherchons à identifier les cas métiers dans lesquels l'apprentissage par renforcement est le plus efficace. Cela nous permet de démarquer les profils de demande les plus adaptés à l'utilisation de l'apprentissage par renforcement. Les résultats sont principalement analysés à l'aide des indicateurs de l'apprentissage par renforcement, relatant de la performance de l'agent. Ces indicateurs sont également comparés à ceux du modèle sans agent, qui sert de base à notre étude. Les résultats de simulation ont montré qu'il est possible d'intégrer à un agent à une simulation d'un atelier géré en DDMRP. L'agent est non seulement capable d'apprendre dans un tel environnement, mais il est aussi apte à dépasser les performances d'un modèle sans agent. De plus, les résultats montrent que l'agent construit et étudié dans ce travail est efficace dans des environnements à fréquence de pics faible. Si la fréquence de pics augmente, un atelier avec une charge de travail élevée peut nuire à sa performance.

Abstract

Confronted with more demanding customers and a more diversified demand, the industrial field faces new stakes regarding production and customer satisfaction. The stakes are to optimize the stocks while reducing delivery time. Nevertheless, the former manufacturing methods can't reach these new goals. The industrials attempt to innovate and find new methods with simple production rules. The Demand Driven Material Requirements Plan-ning (DDMRP) is a demand-driven production method which belongs to this new industrial innovation. Based on simple and consistent rules, this method attempts to limit the stocks levels and reduce delivery time by using real demand. However, this method is still new. Consequently, its literature is limited. Particularly, its parametrization defaults : it seems difficult to correctly set up the algorithm, especially in a real world case study. The subject of this study is the parametrization of the DDMRP method with a reinforcement learning algorithm. This project attemps to bring dynamic adjustments to order spike thresholds and horizon spike thresholds. It is done to assist and improve the parametrization of the production method. A reinforcement learning agent is implemented in a DDMRP-driven environment. This agent also aims to increase the DDMRP performance. It tries to optimize the stocks and improve customer satisfaction. The agent, which is inspired et adapted form an Branching Deep Q-Learning algorithm, is integrated to a workshop model run by DDMRP. This workshop is modeled by a discret event simulation. It is adapted from a model which already exists. The project is entirely done with the Python language with the code editor VS Code. We use standard Python libraries, and we add the Keras library of the Tensorflow module to make the agent. The developed agent is tested on "dummy" environments before we use it in the DDMRP model. It is integrated to an agent-free model, which matches withe the Ptak and Smith's model. Once the agent is integrated and validated, we run experiments regarding the reinforcement learning parameters. These experiments allow us to create an efficient agent in a DDMRP-driven environnement. Then, we aim to identify the real world case studies which give us the best reinforcement learning results. This lets us identify the most adapted demand streams for the reinforcement learning. The results are mostly analysed using reinforcement learning indicators, relating the agent's performance. These indicators are also compared to the results of an agent-free model, which we use as a baseline. The project shows it is possible to integrate an agent to a simulation with a DDMRP-driven workshop. The agent can learn in this environement, and it can also be better than a model-free agent. The built and studied agent in this study is efficient in environements with low spikes frequency. If the spikes frequency increases, a workshop with a high workload can jeopardize its results.

Département:	Département de mathématiques et de génie industriel
Programme:	Maîtrise recherche en génie industriel
Directeurs ou directrices:	Maha Ben Ali et Guillaume Martin
URL de PolyPublie:	https://publications.polymtl.ca/10549/
Université/École:	Polytechnique Montréal
Date du dépôt:	13 févr. 2023 09:04
Dernière modification:	27 sept. 2024 16:36

Citer en APA 7:	Duhem, L. (2022). Paramétrisation d'une méthode de production pilotée par la demande avec un algorithme d'apprentissage par renforcement [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10549/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document