Using a Diversity Criterion to Select Training Sets for Machine Learning Models

Kim Ton

Mémoire de maîtrise (2021)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (9MB)

Afficher le résumé

Cacher le résumé

Résumé

Un modèle prédictif peut être utile seulement dans la mesure où ses prédictions reflètent la réalité. La performance d'un modèle d'apprentissage machine dépend beaucoup de l'in- formation donnée lors de son entraînement puisqu'il se base sur cette information pour se représenter la réalité. Les méthodes de sélection de données sont des méthodes utilisées pour préparer les ensembles de données et avoir de meilleurs modèles. Elles ont comme but de réduire le nombre de données à montrer au modèle d'apprentissage machine tout en gardant la performance générale du modèle. Elles cherchent les instances aberrantes ou redondantes et les enlèvent. Ce mémoire est un travail exploratoire sur l'utilisation de la diversité comme critère de sélection pour une méthode de sélection de données. Nous proposons une nouvelle méthode de sélection de données de type filter nommé MaxDivSec. Partant avec l'entièreté de l'ensemble de données, MaxDivSec résout des Maximun Diversity Problem (MDP) pour réduire d'un certain pourcentage l'ensemble d'entraînement. MaxDivSec est basée sur l'intuition que les points formant un sous-ensemble avec le plus de diversité à moins de chance d'être dans la même classe. Elle résout un Maximun Diversity Problem dans chaque classe de l'ensemble de données et enlève la solution de l'ensemble d'entraînement. La méthode cherche à réduire l'ensemble de données. Nous testons notre méthode avec deux méthodes de références : une sélection aléatoire et une sélection avec la méthode mahalanobis de détection de données aberrantes. La performance avec un classificateur de type K-nearest neighbours de chacune des méthodes est analysée avec un test Wilcoxon signed-rank. Ce test permet de déterminer si les résultats obtenus sont statistiquement significatifs et différents entre eux. Nos résultats montrent que MaxDivSec performe mieux que la sélection aléatoire et peut donc être un critère pour sélectionner des instances pour un modèle. Nous avons présenté nos résultats dans un article soumis en juillet 2021 dans le journal SN Operations Research Forum.

Abstract

Providing the right data to a machine learning model is an important step to ensure its performance. Non-compliant training data instances may lead to wrong predictions yielding models that cannot be used in production. Instance or prototype selection methods are often used to curate training sets thus leading to more reliable and efficient models. Those methods want to reduce the training set's size while preserving the classifier's performance. They operate by removing undesirable instances raised by noise or redundancy. In this thesis, we investigate if diversity is a helpful criterion for choosing which instances to remove from a given training set. We propose a new filtering method, called MaxDivSec, that solves a Maximun Diversity Problem as one of its computing steps. Our method starts with the entire training set and then reduces the training by a certain percentage. The intuition behind the method is that the most diverse points in a class have less prob- ability to belong together. We test our hypothesis against a random selection method and a popular outlier selection method, using benchmark datasets with different data charac- teristics. Our computational experiments demonstrate that selection by diversity achieves better classification performance than random selection and can hence be considered as an alternative data selection criterion for effective model training. Those results are shown in an article submitted for the SN Operations Research Forum journal in July 2021.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Daniel Aloise et Claudio Contardo
URL de PolyPublie:	https://publications.polymtl.ca/9902/
Université/École:	Polytechnique Montréal
Date du dépôt:	25 avr. 2022 15:09
Dernière modification:	08 avr. 2024 10:09

Citer en APA 7:	Ton, K. (2021). Using a Diversity Criterion to Select Training Sets for Machine Learning Models [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/9902/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document