Simulation and Reinforcement Learning-based Decision-making for Adaptive Production Management in Complex Manufacturing Systems

Thèse de doctorat (2023)

Accès restreint: Personnel autorisé jusqu'au 11 décembre 2024
Conditions d'utilisation: Tous droits réservés

Résumé

Dans cette recherche, des agents d’apprentissage par renforcement (AR) sont formés pour faciliter la prise de décision dans des systèmes de production complexes. Les agents prennent en charge les tâches de répartition et de lancement des commandes, en tenant compte des indicateurs de performance clés du système. Prise de décision des agents les politiques sont formées dans un environnement simulé fourni par la simulation d’événements discrets. Ces agents sont appelés agents de gestion. Inspirés par le concept d’auto-jeu, des agents AR conflictuels et stimulants sont inclus. Les agents en conflit simulent véritables interruptions des ressources système. Ils interrompent les ressources qui devraient affecter de manière significative les performances du système. Les agents difficiles créent une variabilité de la demande. Ils sélectionnent des taux de demande qui défient le système et entraînent le nonrespect des dates d’échéance. Le rôle des agents conflictuels et provocateurs est de défier activement les agents de gestion. Cela pousse les agents de gestion à explorer de nouvelles stratégies pour faire face à l’impact des interruptions et de la variabilité du taux de demande sur les performances du système. L’approche est appliquée à un cas d’utilisation pour un système de fabrication de semi-conducteurs réel. La performance du système, employant des agents de gestion, est d’abord comparée à la répartition et à la libération des commandes basées sur l’heuristique traditionnellement appliquées. La performance est évaluée à l’aide de paramètres comprenant, mais sans s’y limiter, le débit et le pourcentage de déchets. Ensuite, leurs performances sont testées dans deux cas : avec et sans la présence des agents conflictuels. Enfin, les agents de gestion sont testés en présence d’agents à la fois conflictuels et provocateurs. Dans ce cas, le taux de demande varie pour le même travail en cours, créant une variabilité au sein du système. L’application de AR pour la gestion des agents montre des résultats prometteurs par rapport aux heuristiques traditionnellement appliquées. La première comparaison montre une amélioration du débit de production, une réduction du temps total sans valeur ajoutée et une réduction des rebuts. La deuxième comparaison montre une amélioration des politiques apprises des agents de gestion. L’amélioration a été obtenue dans le même temps de formation pour les agents de gestion sans interruption, grâce à la présence d’agents conflictuels. Le dernier test pour les agents, dans lequel des agents conflictuels et provocateurs étaient présents, montre que les agents de gestion gèrent le taux de demande variable sans entraîner de retards excessifs dans l’exécution des ordres de travail. Les agents conflictuels et stimulants ont amélioré les politiques apprises des agents, malgré la variabilité causée par les opérateurs et les demandes variables des clients.

Abstract

In this research, Reinforcement Learning (RL) agents are trained to facilitate the decisionmaking in complex production systems. The agents support dispatching and order release tasks, considering the system’s Key Performance Indicators (KPIs). Agents’ decision-making policies are trained within a simulated environment provided through Discrete-Event Simulation (DES). These agents are referred to as the managing agents. Inspired by the self-play concept, conflicting and challenging RL agents are included. The conflicting agents simulate real system resources interruptions. They interrupt the resources that are expected to significantly affect the system’s performance. The challenging agents create demand variability. They select demand rates that challenge the system and cause due dates to be missed. The role of both conflicting and challenging agents is to actively challenge the managing agents. This drives the managing agents to explore new strategies for tackling the impact of interruptions and demand rate variability on the system’s performance. The approach is applied to a use case for a real semiconductor manufacturing system. The performance of the system that employs managing agents is first compared to traditionally applied heuristic-based dispatching and order release system. The performance is assessed through metrics including, but not limited to, throughput and waste percentage. Then, their performance is tested in two cases: with and without the conflicting agents’ presence. Finally, the managing agents are tested in the presence of both conflicting and challenging agents. In that case, the demand rate is varied for the same Work-In-Process (WIP) creating variability within the system. The application of RL for managing agents shows promising results over traditionally applied heuristics. The first comparison shows an improvement in the production throughput, a reduction in the total non value-added time, and a reduction in scrap. The second comparison shows an improvement in the learnt policies of the managing agents. This improvement was achieved through the conflicting agents’ presence. This was achieved within the same training time for managing agents with no interruptions. The last test for the agents, in which both conflicting and challenging agents were present, shows that the managing agents handle the varying demand rate without resulting in excessive delays in fulfilling job orders. The introduction of conflicting and challenging agents improved the management agents’ learnt policies. This promotes the applicability of such RL-based decision-making in real systems considering the variability caused by human operators and variable customer demands.

Département:	Département de mathématiques et de génie industriel
Programme:	Doctorat en génie industriel
Directeurs ou directrices:	Soumaya Yacout et Samuel Bassetto
URL de PolyPublie:	https://publications.polymtl.ca/53417/
Université/École:	Polytechnique Montréal
Date du dépôt:	11 déc. 2023 08:53
Dernière modification:	20 avr. 2024 04:52

Citer en APA 7:	Sakr, A. (2023). Simulation and Reinforcement Learning-based Decision-making for Adaptive Production Management in Complex Manufacturing Systems [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/53417/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document