Master's thesis (2010)
Open Access document in PolyPublie |
|
Open Access to the full text of this document Terms of Use: All rights reserved Download (1MB) |
Abstract
The quality of learning data is an issue in a number of applications of monitored classification, as the classifying quality in any method is defined by the quality of the data used in the processing phase; i.e. at the entry of classification system. It is very common to face the issue of missing data when using the classifier based on the logical analysis of data method (LAD). This phenomenon is noticed when values can not be noted, are lost or have not been saved. One of these cases causes a dysfunction of the logical processing of data, as the classifier LAD cannot get its information from incomplete databases. Should we use it, we should adopt a method that removes this data. In the absence of a method of processing missing digital data for classifier LAD, setting up a new statistical method would appear as a very beneficial alternative to catch up for missing data and then to create classification patterns using LAD. In this perspective, we propose in this work a statistical method to substitute missing values. The aim of this thesis is to search how to replace the missing value with the two extreme possibilities following the available values of the variable in question, and following the information on the classes available. We also focus on the validation of our approach that took advantage from techniques of the non-parametrical statistical test. This allowed us to reassert the results of the various tests of the new method on true data as per three applications concerning the monitored classification. The works presented in this thesis are the outcome of the ambitious research project led by the team of Dr. Soumaya Yacout. They are also the continuation of the works included in the thesis of David S. (David S. 2007) focused on the introduction of the logical analysis of data for conditional maintenance.
Résumé
La qualité des données d'apprentissage est une problématique dans de nombreuses applications de classification supervisée, car la qualité de classification de n'importe qu'elle méthode est définie par la qualité des données utilisées dans le processus de traitement c.à.d. à l'entrée du système de classification. Lors de l'utilisation du classificateur basé sur la méthode d'analyse logique des données (LAD) dans le domaine de la maintenance conditionnelle, il est très fréquent de confronter le problème de données manquantes. Ce phénomène se manifeste lorsque les valeurs n'ont pas pu être observées, elles ont été perdues ou elles n'ont pas été enregistrées. La présence de ces dernières entraîne un dysfonctionnement du processus de traitement logique des données, puisque le classificateur LAD, ne peut pas apprendre à partir des bases de données incomplètes. Si l'on veut l'utiliser, il faut donc adopter une méthode d'imputation de ces données. En l'absence d'une méthode de traitement des données numériques manquantes pour le classificateur LAD, l'élaboration d'une nouvelle méthode statistique s'avère une alternative très intéressante pour substituer les données manquantes et, par la suite, générer des modèles de classification par LAD. Dans cette optique, nous proposons dans ce mémoire une méthode statistique de substitution des valeurs manquantes. L'objectif de cette méthode est de remplacer la valeur manquante par les deux possibilités extrêmes que peut prendre cette valeur suivant les valeurs disponibles de la variable en question, et suivant l'information des classes dont on dispose. Nous avons également mis l'accent sur la validation de notre approche, qui a bénéficié des techniques du test statistique non paramétrique. Cela nous a permis de confirmer les résultats de différents tests de la nouvelle méthode sur des données réelles dans le cadre de trois applications concernant la classification supervisée.
Department: | Department of Mathematics and Industrial Engineering |
---|---|
Program: | Génie Industriel |
Academic/Research Directors: | Soumaya Yacout |
PolyPublie URL: | https://publications.polymtl.ca/369/ |
Institution: | École Polytechnique de Montréal |
Date Deposited: | 29 Nov 2010 14:30 |
Last Modified: | 25 Sep 2024 22:32 |
Cite in APA 7: | Bennane, A. (2010). Traitement des valeurs manquantes pour l'application de l'analyse logique des données à la maintenance conditionnelle [Master's thesis, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/369/ |
---|---|
Statistics
Total downloads
Downloads per month in the last year
Origin of downloads