<  Back to the Polytechnique Montréal portal

Using a Diversity Criterion to Select Training Sets for Machine Learning Models

Kim Ton

Master's thesis (2021)

[img] Restricted to: Repository staff only until 25 April 2023
Terms of Use: All rights reserved
Request a copy
Show abstract
Hide abstract

Abstract

Providing the right data to a machine learning model is an important step to ensure its performance. Non-compliant training data instances may lead to wrong predictions yielding models that cannot be used in production. Instance or prototype selection methods are often used to curate training sets thus leading to more reliable and efficient models. Those methods want to reduce the training set's size while preserving the classifier's performance. They operate by removing undesirable instances raised by noise or redundancy. In this thesis, we investigate if diversity is a helpful criterion for choosing which instances to remove from a given training set. We propose a new filtering method, called MaxDivSec, that solves a Maximun Diversity Problem as one of its computing steps. Our method starts with the entire training set and then reduces the training by a certain percentage. The intuition behind the method is that the most diverse points in a class have less prob- ability to belong together. We test our hypothesis against a random selection method and a popular outlier selection method, using benchmark datasets with different data charac- teristics. Our computational experiments demonstrate that selection by diversity achieves better classification performance than random selection and can hence be considered as an alternative data selection criterion for effective model training. Those results are shown in an article submitted for the SN Operations Research Forum journal in July 2021.

Résumé

Un modèle prédictif peut être utile seulement dans la mesure où ses prédictions reflètent la réalité. La performance d'un modèle d'apprentissage machine dépend beaucoup de l'in- formation donnée lors de son entraînement puisqu'il se base sur cette information pour se représenter la réalité. Les méthodes de sélection de données sont des méthodes utilisées pour préparer les ensembles de données et avoir de meilleurs modèles. Elles ont comme but de réduire le nombre de données à montrer au modèle d'apprentissage machine tout en gardant la performance générale du modèle. Elles cherchent les instances aberrantes ou redondantes et les enlèvent. Ce mémoire est un travail exploratoire sur l'utilisation de la diversité comme critère de sélection pour une méthode de sélection de données. Nous proposons une nouvelle méthode de sélection de données de type filter nommé MaxDivSec. Partant avec l'entièreté de l'ensemble de données, MaxDivSec résout des Maximun Diversity Problem (MDP) pour réduire d'un certain pourcentage l'ensemble d'entraînement. MaxDivSec est basée sur l'intuition que les points formant un sous-ensemble avec le plus de diversité à moins de chance d'être dans la même classe. Elle résout un Maximun Diversity Problem dans chaque classe de l'ensemble de données et enlève la solution de l'ensemble d'entraînement. La méthode cherche à réduire l'ensemble de données. Nous testons notre méthode avec deux méthodes de références : une sélection aléatoire et une sélection avec la méthode mahalanobis de détection de données aberrantes. La performance avec un classificateur de type K-nearest neighbours de chacune des méthodes est analysée avec un test Wilcoxon signed-rank. Ce test permet de déterminer si les résultats obtenus sont statistiquement significatifs et différents entre eux. Nos résultats montrent que MaxDivSec performe mieux que la sélection aléatoire et peut donc être un critère pour sélectionner des instances pour un modèle. Nous avons présenté nos résultats dans un article soumis en juillet 2021 dans le journal SN Operations Research Forum.
Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Daniel Aloise, Claudio Contardo
PolyPublie URL: https://publications.polymtl.ca/9902/
Institution: Polytechnique Montréal
Date Deposited: 25 Apr 2022 15:09
Last Modified: 21 Nov 2022 02:55
Cite in APA 7: Ton, K. (2021). Using a Diversity Criterion to Select Training Sets for Machine Learning Models [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/9902/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item