<  Back to the Polytechnique Montréal portal

Deep Learning and Reinforcement Learning for Inventory Control

Zahra Khanidahaj

Masters thesis (2018)

[img] Restricted to: Repository staff only until 12 June 2020.
Cite this document: Khanidahaj, Z. (2018). Deep Learning and Reinforcement Learning for Inventory Control (Masters thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/3844/
Show abstract Hide abstract

Abstract

RÉSUMÉ : La gestion d’inventaire est l’un des problèmes les plus importants dans la fabrication de produits. Les décisions de commande sont prises par des agents qui observent les demandes, stochastiques, ainsi que les informations locales tels que le niveau d’inventaire afin de prendre des décisions sur les prochaines valeurs de commande. Étant donné que l’inventaire sur place (la quantité disponible de stock en inventaire), les demandes non satisfaites (commandes en attente), et l’existence de commander sont coûteux, le problème d’optimisation est conçu afin de minimiser les coûts. Par conséquent, la fonction objective est de réduire le coût à long terme) dont les composantes sont des inventaires en stock, commandes en attente linéaires (pénalité), et des coûts de commandes fixes. Généralement, des algorithmes de processus de décision markovien, et de la programmation dynamique, ont été utilisés afin de résoudre le problème de contrôle d’inventaire. Ces algorithmes ont quelques désavantages. Ils sont conçus pour un environnement avec des informations disponibles, telles que la capacité de stockage ou elles imposent des limitations sur le nombre d’états. Résultat, les algorithmes du processus de décision markovien, et de la programmation dynamique sont inadéquats pour les situations mentionnées ci hauts, à cause de de la croissance exponentielle de l’espace d’état. En plus, les plus fameuses politique de getsion d’inventaire, telles que politiques standards <s,S> et <R,Q> ne fonctionne que dans les systèmes où les demandes d’entrées obtiennent une distribution statistique connues. Afin de résoudre le problème, un apprentissage par renforcement approximée est développé dans le but d’éviter les défaillances mentionnées ci hauts. Ce projet applique une technique d’apprentissage de machine nommé ‘Deep Q-learning’, qui est capable d’apprendre des politiques de contrôle en utilisant directement le ‘end-to-end RL’, malgré le nombre énorme d’états. Aussi, le modèle est un ‘Deep Neural Network’ (DNN), formé avec une variante de ‘Q-learning’, dont l’entrée et la sortie sont l’information locale d’inventaire et la fonction de valeur utilisée pour estimer les récompenses futures, respectivement. Le Deep Q-learning, qui s’appelle ‘Deep Q-Network’ (DQN), est l’une des techniques pionnières ‘DRL’ qui inclut une approche à base de simulation dans laquelle les approximations d’actions sont menées en utilisant un réseau DNN. Le système prend des décisions sur les valeurs de commande. Étant donnée que la fonction de coût est calculée selon l’ordre ‘O’ et le niveau d’inventaire ‘IL’, les valeurs desquelles sont affectées par la demande ‘D’, la demande d’entrée ainsi que l’ordre et le niveau d’inventaire peuvent être considérés en tant qu’information individuelle d’inventaire. De plus, il y a un délai de mise en œuvre exprimant la latence dans l’envoi des informations et dans la réception des commandes. Le délai de mise en œuvre fournit davantage d’information locale incluant ‘IT’ et ‘OO’. Le ‘IT’ et ‘OO’ sont calculés et suivis durant les périodes de temps différents afin d’explorer plus d’informations sur l’environnement de l’agent d’inventaire. Par ailleurs, la principale information individuelle et la demande correspondante comprennent les états d’agents. Les systèmes ‘PO’ sont davantage observés dans les modèles à étapes multiples dont les agents peuvent ne pas être au courant de l’information individuelle des autres agents. Dans le but de créer une approche basée sur le ‘ML’ et fournir quelques aperçus dans la manière de résoudre le type d’agent multiple ‘PO’ du problème actuel de contrôle d’inventaire, un agent simple est étudié. Cet un agent examine si on peut mettre sur pied une technique ‘ML’ basée sur le ‘DL’ afin d’aider à trouver une décision de valeur de commande quasi optimale basée sur la demande et information individuelle sur une période à long terme. Afin de le réaliser, dans un premier temps, la différence entre la valeur de commande (action) et la demande comme résultat d’un ‘DNN’ est estimée. Ensuite, la commande est mise à jour basée sur la commande à jour et la demande suivante. Enfin, le coût total (récompense cumulative) dans chaque étape de temps est mis à jour. En conséquence, résoudre le problème de valeur de commande d’agent simple suffit pour diminuer le coût total sur le long terme. Le modèle développé est validé à l’aide de différents ratios des coefficients de coût. Aussi, le rendement de la présente méthode est considéré satisfaisant en comparaison avec le ‘RRL’ (RL de régression), la politique <R,Q> et le politique <s,S>. Le RL de régression n’est pas capable d’apprendre aussi bien et avec autant de précision que le ‘DQN’. En dernier lieu, des recherches supplémentaires peuvent être menées afin d’observer les réseaux de chaînes d’approvisionnement multi-agents en série partiellement observables.----------ABSTRACT : Inventory control is one of the most significant problems in product manufacturing. A decision maker (agent) observes the random stochastic demands and local information of inventory such as inventory levels as its inputs to make decisions about the next ordering values as its actions. Since inventory on-hand (the available amount of stock in inventory), unmet demands (backorders), and the existence of ordering are costly, the optimization problem is designed to minimize the cost. As a result, the objective function is to reduce the long-run cost (cumulative reward) whose components are linear holding, linear backorder (penalty), and fixed ordering costs. Generally, Markov Decision Process (MDP) and Dynamic Programming (DP) algorithms have been utilized to solve the inventory control problem. These algorithms have some drawbacks. They are designed for the environment with available local information such as holding capacity or they impose limitations on the number of the states while these information and limitations are not available in some cases such as Partially Observable (PO) environments. As a result, DP or MDP algorithms are not suitable for the above-mentioned conditions due to the enormity of the state spaces. In addition, the most famous inventory management policies such as normal <s,S> and <R,Q> policies are desirable only for the systems whose input demands obtain normal distribution. To solve the problem, an approximate Reinforcement Learning (RL) is developed so as to avoid having the afore-mentioned shortcomings. This project applies a Machine Leaning (ML) technique termed Deep Q-learning, which is able to learn control policies directly using end-to-end RL, even though the number of states is enormous. Also, the model is a Deep Neural Network (DNN), trained with a variant of Q-learning, whose input and output are the local information of inventory and the value function utilized to estimate future rewards, respectively. Deep Q-learning, which is also called Deep Q-Network (DQN), is one of the types of the pioneer Deep Reinforcement Learning (DRL) techniques that includes a simulation-based approach in which the action approximations are carried out using a Deep Neural Network (DNN). To end this, the agents observe the random stochastic demands and make decisions about the ordering values. Since the cost function is calculated in terms of Order (O) and Inventory Level (IL) whose values are affected by Demand (D), input demand as well as the order and inventory level can be considered as the individual information of the inventory. Also, there is a lead-time expressing the latency on sending information or receiving orders. The lead-time provides more local information including Inventory Transit (IT) and On-Order (OO). IT and OO are calculated and tracked during different time periods so as to explore more information about the environment of the inventory agent. Furthermore, the main individual information and the corresponding demand comprise the states of the agent. PO systems are observed more in multi-stage models whose agents can be unaware of the individual information of the other agents. In order to create a ML-based approach and provide some insight into how to resolve the PO multi-agent type of the present inventory control problem, a single-agent is studied. This agent examines if one can implement a ML technique based on Deep Learning (DL) to assist to learn near-optimal ordering value decision based on demand and individual information over long-run time. To achieve this, first, the difference between the ordering value (action) and demand as the output of a DNN is approximated. Then, the order is updated after observing the next demand. Next, the main individual information of the agent called input features of a DNN is updated based on the updated order and the following demand. Lastly, the total cost (cumulative reward) in each time step is updated. Accordingly, solving the ordering value problem of single-agent suffices to diminish the total cost over long-run time. The developed model is validated using different ratios of the cost coefficients. Also, the performance of the present method is found to be satisfactory in comparison with Regression Reinforcement Learning (Regression RL), <R,Q> policy, and <s,S> policy. The regression RL is not able to learn as well and accurately as DQN. Finally, further research can be directed to solve the partial-observable multi-agent supply chain networks.

Open Access document in PolyPublie
Department: Département de mathématiques et de génie industriel
Dissertation/thesis director: Louis-Martin Rousseau
Date Deposited: 12 Jun 2019 13:45
Last Modified: 27 Jun 2019 16:19
PolyPublie URL: https://publications.polymtl.ca/3844/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only