Scaling Logical Analysis of Data for Large Volume and Streaming Data in Industry 4.0 Applications

Osama Elfar

Thèse de doctorat (2022)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (17MB)

Afficher le résumé

Cacher le résumé

Résumé

Les avancées significatives dans la collecte et le stockage des données ont contribué au développement et à l'émergence des techniques d'apprentissage automatique (ML) en tant qu'outils puissants pour le traitement des données et la prise de décision dans les systèmes industriels. Ces systèmes ont essayé de s'adapter aux évolutions des progrès qui ont conduit à de nouveaux concepts tels que l'industrie 4.0 et la qualité 4.0. Dans de tels systèmes, les données sont stockées dans de grands volumes et se présentent sous la forme de flux continus de grandes quantités, au lieu des petits ensembles de données statiques traditionnels qui ont longtemps été utilisés pour créer des modèles statistiques et pour former des modèles ML. Ces systèmes industriels nécessitent des modèles ML à fort pouvoir d'interprétabilité. Dans ce contexte, l'analyse logique des données (LAD), en tant que technique de classification hautement interprétable, devient un candidat de l'approche ML qui a la capacité de traiter un grand volume de données ainsi que des données en continu tout en préservant son pouvoir distinct d'interprétabilité. De telles versions de LAD n'ont pas encore été développées, et c'est la proposition de cette thèse. En tant que tel, l'objectif de cette thèse est de développer une technique ML basée sur le LAD classique, mais avec la capacité de traiter un grand volume de données en continu, qui présente un phénomène de dérive de concept. Ce phénomène est très courant en milieu industriel car tous les actifs physiques subissent un vieillissement et une détérioration. Premièrement, une technique basée sur les ensembles est développée pour accélérer LAD et le rendre capable de traiter un grand volume de données. Un nouveau mécanisme est proposé pour développer un système d'ensemble pour LAD (LAD-ENS) afin d'améliorer son efficacité de calcul, tout en préservant son interprétabilité et sa précision. Ce nouveau mécanisme vise à maintenir le pouvoir explicatif de la LAD classique en combinant les classificateurs individuels au niveau des motifs. À l'aide d'ensembles de données obtenus à partir du référentiel d'apprentissage automatique de l'UCI, des expériences informatiques sont menées pour démontrer les performances de LAD-ENS en termes de temps de calcul, de précision de la classification et d'interprétabilité. En plus d'obtenir une réduction statistiquement significative du temps de calcul, le LAD-ENS développé atteint des précisions de classification compétitives par rapport à deux approches LAD classiques et à cinq algorithmes d'apprentissage automatique courants. Deuxièmement, une adaptation de la technique LAD est fournie pour devenir dynamique et adaptative afin de pouvoir gérer des flux de données continus qui incluent des dérives de concept - c'est ce qu'on appelle l'analyse logique dynamique et adaptative des données en continu, ou DA-LASD. De plus, DA-LASD est conçu pour avoir la capacité de gérer des données de flux déséquilibrées. Le cadre proposé est construit de différents modules qui modifient dynamiquement les caractéristiques des modèles LAD ; éliminer les modèles pourris et inefficaces ; et en générer de nouveaux si nécessaire. Cela met à jour en permanence le classificateur LAD pour s'adapter aux changements dans les flux de données. Le DA-LASD est testé sur plusieurs jeux de données synthétiques couvrant différents types de dérives de concept. Les résultats montrent comment le cadre proposé adapte dynamiquement le modèle et améliore avec succès toutes les mesures de performance qui commencent à décliner. De plus, il s'avère assez compétitif en termes de précision de classification, par rapport à d'autres techniques d'apprentissage automatique qui traitent des données en continu. En plus de sa puissance d'interprétabilité distinctive, le DA-LASD est un cadre prometteur pour une gamme variée d'applications où la haute précision et l'interprétabilité sont toutes deux essentielles. Le système de contrôle de la qualité des processus industriels est considéré comme l'un des systèmes qui devraient être adaptés pour être plus intelligents et automatisés sous le label de l'Industrie 4.0. Cela peut être réalisé en utilisant une technique d'apprentissage automatique interprétable afin de prendre des actions correctives automatiques pour les états hors de contrôle et de ramener le processus à l'état sain. De plus, cette technique doit traiter et s'adapter dynamiquement à la nature des données de flux collectées à partir de ces systèmes avancés et complexes. Par conséquent, DA-LASD est renforcé par un processus d'ingénierie des fonctionnalités et utilisé dans ce contexte à travers une étude de cas de l'industrie aérospatiale. Le modèle proposé montre à quel point il est résilient et durable, et comment il s'adapte dynamiquement aux dérives du concept et améliore avec succès les mesures de performance qui commencent à se détériorer après les dérives du concept. De plus, le modèle proposé surpasse statistiquement les autres techniques d'apprentissage automatique en termes de sensibilité de classification, ce qui est important pour mesurer la capacité à détecter les défauts et les états hors de contrôle, tout en fournissant de puissants modèles interprétables qui aident à prendre des mesures de contrôle automatiques. Avec leurs hautes précisions et leur pouvoir d'interprétabilité distinctif, le LAD-ENS et le DA-LASD montrent une performance prometteuse dans les applications où un grand volume de données ou de flux de données existe et où l'interprétabilité est requise, à savoir dans les applications industrielles et de machines.

Abstract

The significant advancements in data collection and storage have helped the development and the emergence of Machine Learning (ML) techniques as powerful tools for data processing and decision making in industrial systems. These systems have been trying to adapt to the advancements changes led to new concepts such as Industry 4.0 and Quality 4.0. In such systems, data is stored in large volumes and comes in the form of continuous streams of large amounts, instead of the traditional small and static datasets that have long been used to build statistical models, and to train ML models. These industrial systems require ML models with high-interpretability power. In this context, Logical Analysis of Data (LAD) as a highly interpretable classification technique, becomes a candidate of ML approach that has the ability to process large volume of data as well as streaming data while preserving its distinct power of interpretability. Such versions of LAD have not yet been developed, and it is the proposal in this thesis. As such, the objective of this thesis is to develop a ML technique that is based on the classical LAD, but with the ability of processing large volume of streaming data, which exhibits concept-drift phenomenon. This phenomenon is very common in industrial setting because all physical assets experience aging and deterioration. Firstly, an ensemble-based technique is developed to accelerate LAD and make it able to process a large volume of data. A novel mechanism is proposed for developing an ensemble system for LAD (LAD-ENS) to improve its computational efficiency, while preserving its interpretability and accuracy. This new mechanism aims to maintain the explanatory power of classical LAD by combining the individual classifiers at the level of patterns. Using datasets obtained from the UCI Machine Learning Repository, computational experiments are conducted to demonstrate the performance of LAD-ENS in terms of computational time, classification accuracy, and interpretability. In addition to achieving a statistically significant reduction in computational time, the developed LAD-ENS achieves competitive classification accuracies compared to two classical LAD approaches and five common machine learning algorithms. Secondly, an adaptation of LAD technique is provided to become dynamic and adaptive to be able to handle continuous data streams that include concept drifts – it is called Dynamic and Adaptive Logical Analysis of Streaming Data, or DA-LASD. Moreover, DA-LASD is devised in order to have the ability for handling imbalanced streaming data. The proposed framework is built of different modules that dynamically modify the characteristics of the LAD patterns; eliminate decayed and inefficient patterns; and generate new ones if needed. This continuously updates the LAD classifier to adapt to the changes in the data streams. The DA-LASD is tested on several synthetic datasets covering different types of concept drifts. The results show how the proposed framework dynamically adapts the model, and successfully improves any performance measures that start to decline. Moreover, it proves quite competitive in terms of the classification accuracy, compared to other machine learning techniques that handle streaming data. In addition to its distinctive interpretability power, the DA-LASD is a promising framework for a diverse range of applications where high accuracy and interpretability are both essential. The industrial process quality control system is considered one of the systems that should be adapted to be more intelligent and automated under the label of Industry 4.0. That can be achieved by using an interpretable machine learning technique in order to take automatic corrective actions for out-of-control states and bring the process back to the healthy state. Moreover, this technique has to deal and adapt dynamically with the nature of the streaming data collected from such advanced and complex systems. Therefore, DA-LASD is reinforced with a feature engineering process and used in this context through a case study from the aerospace industry. The proposed model shows how resilient and sustainable it is, and how it is dynamically adaptive to the concept drifts and successfully improves performance measures that start to deteriorate after the concept drifts. Moreover, the proposed model outperforms statistically other machine learning techniques in terms of classification sensitivity which is important to measure the ability to detect faults and out of control states, while providing powerful interpretable patterns that help automatic control actions to be taken. With their high accuracies and their distinctive interpretability power, the LAD-ENS and the DA-LASD show a promising performance in applications where large volume of data or data stream exists, and interpretability is required, namely, in industrial and machinery applications.

Département:	Département de mathématiques et de génie industriel
Programme:	Doctorat en génie industriel
Directeurs ou directrices:	Soumaya Yacout et Osman Hany
URL de PolyPublie:	https://publications.polymtl.ca/10362/
Université/École:	Polytechnique Montréal
Date du dépôt:	01 févr. 2023 15:00
Dernière modification:	26 sept. 2024 11:16

Citer en APA 7:	Elfar, O. (2022). Scaling Logical Analysis of Data for Large Volume and Streaming Data in Industry 4.0 Applications [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10362/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document