<  Back to the Polytechnique Montréal portal

Methodology and Tools to Make Predictions from Sporadic Delivery Data

Paul Murray

PhD thesis (2018)

[img]
Preview
Download (5MB)
Cite this document: Murray, P. (2018). Methodology and Tools to Make Predictions from Sporadic Delivery Data (PhD thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/3174/
Show abstract Hide abstract

Abstract

RÉSUMÉ: Au cours de la révolution industrielle, les entreprises manufacturières ont vu naître la notion d’intégration verticale; elles ont acquis des matières premières qu'elles ont transformé en produits finis et livrés à leurs clients. Bien que l'intégration verticale ait été très efficace, à une certaine époque, en raison du contrôle centralisé de la qualité et de la production, elle a également conduit à la création de grandes organisations peu flexibles, qui évoluent difficilement et lentement, et souvent moins capables de tirer parti des technologies émergentes. Les technologies émergentes, les progrès en télécommunications et en transport ont permis aux entreprises de différentes régions d’améliorer leur collaboration, de produire plus efficacement et, ont finalement mené aux réseaux de production et à l'émergence de la gestion de la chaîne d'approvisionnement. La gestion d'une chaîne d'approvisionnement nécessite une compréhension précise des exigences à tous les niveaux de la chaîne. Cependant, cette compréhension des besoins des partenaires de la chaîne d'approvisionnement dépend fortement du partage d'information entre eux. Le partage d'informations entre ces partenaires n'est pas toujours possible et le fournisseur est alors obligé de rechercher d'autres sources d'informations. Les fournisseurs peuvent par exemple disposer des données historiques provenant de leurs registres de livraison. On peut alors s'attendre à ce que ces données fournissent une bonne indication des besoins des clients. Dans la pratique, les registres de livraison sont mal adaptés pour prédire les exigences futures de la demande en raison de la relation non linéaire entre la consommation et les opérations de livraison. Notre recherche a révélé plusieurs défis lors de la tentative d'interprétation de l'information recueillie à partir des données de livraison. Les données de livraison reflètent plus que les comportements de consommation des clients. Les décisions logistiques, telles que le calendrier, la fréquence de livraison, le volume et le nombre de camions, entre autres, sont reflétés dans les données de livraisons, malgré que ces décisions ne soient pas motivées par le client. Une méthode pour extraire les informations de comportement de consommation à partir des données de livraison a donc été nécessaire. Un deuxième point est de savoir comment gérer des prédictions pour une large population de clients. La globalisation de tous les besoins de production présente une vue d'ensemble de l'organisation, mais peu de connaissances sont révélées sur les comportements de consommation individuels. Enfin, même lorsque les prédictions sont faites à un niveau global, il est besoin d’une méthode pour appliquer ces prédictions au niveau individuel de chaque client. Dans cette recherche, nous proposons une méthode pour calculer des prévisions au niveau individuel de chaque client à partir d'un grand ensemble de données globales. La littérature est unanime quant au fait que le partage d'informations collaboratif au sein d'une chaîne d'approvisionnement est bénéfique, mais les auteurs reconnaissent également que d'autres données doivent parfois être substituées, et que ces données peuvent être corrompues ou faussées par des effets de globalisation et d’amplification. Il y a une lacune dans la littérature quant à la façon d’interpréter les données et de les rendre utiles pour l'analyse. Nous répondons à cette lacune en proposant une méthode de substitution des données de livraison aux données de consommation. Nous trouvons également une lacune dans les écrits concernant la segmentation du marché qui utilise généralement des variables descriptives pour distinguer le niveau de similitude entre les clients. Les auteurs ne traitent pas de la façon d'établir des segments lorsque les variables descriptives ne sont pas disponibles. Nous comblons cet écart en proposant une méthode qui établit des segments de marché en fonction du comportement passé démontré. La littérature sur la segmentation de marché se concentre sur le découpage d'une population en segments pour faciliter l'analyse comme la prévision. Il y a peu de conseils sur la façon de désagréger des données et d'appliquer les analyses précédentes aux clients individuels. Nous avons proposé une méthode pour cela. Enfin, pour tenter de combler le besoin d'une méthode de validation des résultats de la segmentation du marché, nous proposons une solution qui établit les segments en fonction du comportement démontré et qui vérifie ensuite si les attributs descriptifs peuvent aboutir à des résultats de segmentation similaires. Un jeu de données réel est utilisé dans cette recherche pour tester les méthodes proposées. L'ensemble de données comprend les données de livraison d'un fournisseur pour l’ensemble de ses clients pendant plus de cinq ans; plus d'un million d'événements de livraison sont inclus. Les données ont été triées pour éliminer les valeurs aberrantes, laissant 75% des données brutes et 3000 clients uniques pour l'étude de cas. Les composants de notre recherche sont présentés en quatre parties qui fonctionnent ensembles pour résoudre le problème général. Chaque composant a cependant des applications potentielles dans d'autres domaines et pourrait être utilisé pour résoudre d'autres types de problèmes. Dans la première partie, les données sont préparées pour l'analyse. Les premières tentatives pour résoudre le problème de la recherche supposaient que l'ensemble de données brutes pourrait simplement être divisées en tranches mensuelles et ensuite utilisées pour élaborer une prévision. Les résultats étaient extrêmement diffus à tel point qu’aucune information n'a été révélée. Nous avons proposé une méthode pour résoudre ce problème. La deuxième partie aborde le problème du nombre trop important de clients pour permettre une analyse prévisionnelle individuelle. Nous avons proposé une méthode pour segmenter les clients en fonction de leurs comportements démontrés. La troisième partie de notre recherche est une méthode permettant de générer des prévisions par segment, puis d'appliquer ces prévisions à des clients individuels. Dans la dernière partie de la recherche, nous tentons de valider et d'améliorer la méthode en intégrant des variables externes telles que le climat, l'emplacement et les caractéristiques propres au domaine industriel concerné. Nous pensions que les comportements étaient influencés par ces facteurs. Les résultats montrent qu'il existe en réalité très peu de corrélation entre les comportements réels des clients et ces attributs. Ceci est surprenant sachant que la segmentation des clients basée sur des attributs descriptifs est une pratique commerciale courante. Les contributions de cette recherche sont importantes dans trois catégories : méthodologique, scientifique et pratique. La stratégie méthodologique utilisée ici démontre que les nouveaux problèmes n’impliquent pas nécessairement le besoin de nouveaux outils. Nous commençons avec un problème d'entreprise et recherchons des outils établis pour le résoudre. Bien que les outils ne soient pas nouveaux ou uniques, leur combinaison et leur application l'est. Sur le plan scientifique, nous proposons un cadre d'étapes interconnectées pouvant être appliquées séquentiellement pour résoudre un problème métier complexe. Un ensemble de données volumineuses, globales et stochastiques est trié, interprété et transformé en une solution offrant des informations prévisionnelles. Les différentes étapes proposées peuvent également être utilisées individuellement et appliquées dans d'autres domaines pour aider à résoudre d'autres types de problèmes. L'étude de cas qui a inspiré cette recherche est un vrai problème fourni par notre partenaire industriel. Les méthodes proposées dans cette recherche permettent de trier les données, de supprimer les informations corrompues ou faussées et d'afficher des résultats exploitables. Une fois que les modèles de comportement sous-jacents peuvent être vus, la situation de l'entreprise peut être mieux cernée, et les connaissances nouvellement disponibles peuvent aider à prendre des décisions d'affaires. La dernière partie de la recherche est importante dans sa rupture d'un paradigme. Beaucoup d'entreprises utilisent dans la prémisse de leur planification d'entreprise, que les attributs descriptifs sont essentiels pour prédire les comportements des clients. Nos résultats montrent que ces types d'attributs ne sont pas nécessairement très clairement corrélés avec le comportement de consommation, notamment quand il y a du biais important lié au caractéristiques intrinsèques du fonctionnement de l’entreprise. La recherche présentée ici forme un cadre pour acquérir des connaissances à partir d'un ensemble de données brutes qui sont inutilisables en l’état. L'étude de cas fournit une méthode pour mettre en oeuvre le cadre proposé et un ensemble viable de résultats est produit.----------ABSTRACT: Managing a supply chain requires an accurate understanding of the requirements at all levels of the chain; understanding requirements of the supply chain partners is therefore highly dependent on information sharing between partners. Information sharing, however, is not always possible and the supplier is forced to look for other sources of information. Suppliers usually have historical data from its delivery records which can be expected to provide a good indication of the customers’ requirements. In practice, delivery records do not perform well for predicting future demand requirements due to the non-linear relationship between delivery transactions and consumption. Delivery records reflect more than just the customers’ consumption behaviors. Logistics decisions, such as timing, frequency, and volume of deliveries are also reflected in the delivery records. A method to extract the consumption behavior information from the noisy data is necessary. A second challenge is how to manage predictions for a large population of customers. Aggregating all production requirements together presents a high-level view of the organization, but little knowledge is revealed regarding consumption behavior. Lastly, once predictions are made at an aggregated level, a method to apply the predictions at the customer level is lacking. In this research, we propose a method for developing customer level forecasts from a large, noisy dataset. Our research has revealed several gaps in the literature which we propose to address. The literature is unanimous in opinion that collaborative information sharing within a supply chain is beneficial, but substitute data must sometimes be used; that data may be corrupted or noisy due to aggregation and bullwhip effects. We address a gap in the literature as to how to address the noise in the data and make it useful for analysis. We also find a gap in the literature regarding market segmentation which generally utilizes descriptive variables to distinguish the level of similarity between customers. The literature does not address how to establish segments when descriptive variables are not available. We address this gap with our proposed method that establishes market segments based on demonstrated past behavior. The literature on market segmentation all focusses on combining a population into segments to facilitate analysis such as forecasting. There is little guidance on how to de-segment and apply those subsequent analyses to the individual customers. We proposed a method for that. Finally, in attempt to address the gap of a method to validate market segmentation results, we propose a method that establishes segments based on demonstrated behavior and then test whether descriptive attributes can achieve similar segmentation results. A real dataset is used in this research to test the proposed methods. The dataset consists of a supplier’s delivery records for all its customers for over five years; more than one million delivery events are included. The data was cleaned to remove outliers leaving 75% of the raw data and 3000 unique customers for the case study. The components of our proposition are presented in four parts that work together for solving one specific problem. Each component has potential applications in other domains and might be utilized in solving other types of problems. Despite their individual uniqueness, the four parts are also sequentially dependent on their preceding part. The research presented here forms a framework for gaining knowledge from an otherwise unusable dataset. The case study provides a platform for validating the proposed framework and a viable set of results is produced.

Open Access document in PolyPublie
Department: Département de mathématiques et de génie industriel
Dissertation/thesis director: Bruno Agard and Marco Antonio Barajas Vazques
Date Deposited: 18 Oct 2018 13:38
Last Modified: 27 Jun 2019 16:47
PolyPublie URL: https://publications.polymtl.ca/3174/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only