<  Back to the Polytechnique Montréal portal

A Novelty Detection Tool Based on Parallel Coordinates Plot

Sheida Shams Shirazi

Masters thesis (2017)

[img]
Preview
Download (9MB)
Cite this document: Shams Shirazi, S. (2017). A Novelty Detection Tool Based on Parallel Coordinates Plot (Masters thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/2943/
Show abstract Hide abstract

Abstract

RÉSUMÉ : La détection de nouveauté est le problème de trouver des événements inconnus ou des échantillons nommés nouveautés quand il y a peu d’informations disponibles ou même aucune information disponible les concernant. En fait, un classificateur de détection de nouveauté est entraîné par les données historiques. L’ensemble de données historiques contiennent les données normales attendues. Ensuite, les nouveautés sont détectées alors qu’elles sont inconnues du classificateur. Il y a beaucoup de cas dans différentes industries où la collecte de données anormales devient un problème paralysant. Par exemple, parfois dans l’étude des soins de santé, ce n’est pas faisable de collecter les échantillons anormaux, parce que fournir les conditions de survenue d’un nouvel échantillon peut nuire aux individus et à l’environnement. La visualisation des données peut avoir un impact efficace sur la détection de ces nouveaux comportements et les analyser et aider à améliorer le processus de prise de décision. Mais aucun des détecteurs de nouveauté n’a pas été établi sur la base d’un graphique de visualisation de données multivariées. Dans cette étude, nous visons à développer un classificateur visuel pour le problème de détection de nouveauté. Ceci est réalisé en développant un outil de détection de nouveauté basé sur le puissant potentiel géométrique de coordonnées parallèles combinées avec le clustering K-medoids. Cet outil, appelé NDTool, pourrait être facilement utilisé dans diverses industries, y compris les soins de santé. Les résultats sur les jeux de données réelles montrent que NDTool a un rendement efficace pour résoudre les problèmes de détection de nouveauté et produit des résultats compétitifs par rapport aux autres algorithmes étudiés dans le travail actuel. Puis NDTool est utilisé pour certaines études sur le cancer du sein comme un moyen à bas coût de suivre la masse suspecte dans le sein. Il aide à détecter précocement de la masse cancéreuse qui est le facteur le plus important du taux de survie des patients.----------ABSTRACT : Novelty detection is the problem of finding unknown events or samples named novelties when there is a limited information or even no information available about them. In fact, a novelty detection classifier is trained by the historical data. The historical dataset contains the expected “normal” data. The novelties are detected while they are unknown to the classifier. There are a lot of cases in different industries where collecting abnormal data becomes a crippling problem. For example, sometimes in the healthcare studies, it is not feasible to collect the abnormal samples, because providing the conditions of occurring of a novel sample may harm the individuals and environment. Data visualization can have an effective impact on detecting such novel behaviors and analyze them and help to improve the process of decision-making. But none of the novelty detectors has been established based on a multivariate data visualization. This study aims to develop an innovative classifier for novelty detection problem. This is achieved by developing a novelty detection tool based on the powerful geometric potential of parallel coordinates plot combined with k-medoids clustering. This tool, named NDTool, could be easily used in various industries. Computational results on real-life datasets show that NDTool is efficient for solving novelty detection problem and produce competitive results compared to the other investigated algorithms in this work. Then NDTool is employed for breast cancer studies as a low-cost way of tracking suspicious masses in the breast. It helps to an early detection of the cancerous mass which is one of the most important factors of the survival rate of patients.

Open Access document in PolyPublie
Department: Département de mathématiques et de génie industriel
Dissertation/thesis director: Samuel Jean Bassetto
Date Deposited: 03 Apr 2018 13:51
Last Modified: 24 Oct 2018 16:12
PolyPublie URL: https://publications.polymtl.ca/2943/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only