Quality Issues in Machine Learning Software Systems: Definition and Remedies

Mémoire de maîtrise (2023)

Accès restreint: Personnel autorisé jusqu'au 10 mai 2025
Conditions d'utilisation: Tous droits réservés

Résumé

Pendant les dernières décennies, l’ingénierie informatique a fait de formidables progrès. Une des avancées récentes les plus importantes est l’intégration de l’apprentissage automatique dans les systèmes informatiques. Des applications qui auraient été impossibles à construire, telles que les voitures autonomes, font leur apparition dans notre vie quotidienne. En parallèle à l’arrivée de ces nouveaux produits, un nombre croissant de nouvelles rapportent les comportements indésirables de systèmes basés sur l’apprentissage automatique (SAAs). Seulement aux États-Unis, plus de 400 accidents de véhicule autonome ont eu lieu entre juillet et mai 2022. En plus de causer des problèmes de sécurité, les SAAs de mauvaise qualité peuvent nuire à de nombreux aspects de la vie quotidienne. Par exemple, un outil expérimental de Amazon créé pour faciliter le recrutement de candidats pour un emploi rejetait les candidatures de femmes plus souvent que celles des hommes. Les SAAs modernes ont donc des problèmes de qualité, et, comme pour plusieurs problèmes, il faut les comprendre pour les résoudre. L’objectif de ce mémoire est de comprendre et définir les problèmes de qualité des SAAs et d’identifier des remèdes potentiels à ces problèmes. Pour ce faire, nous avons réalisé des entrevues (i.e., étude qualitative) auprès de praticiens afin de connaître et comprendre les problèmes de qualité qu’ils rencontrent et les techniques qu’ils ont mises en place afin d’en atténuer les conséquences. Après avoir réalisé 42 entrevues, nous avons établi une liste de 18 problèmes de qualité, pour lesquels nous décrivons leurs causes et conséquences. Nous rapportons 21 techniques utilisées par les praticiens pour atténuer les problèmes de qualité identifiés et en proposons 12 autres basées sur nos connaissances de la littérature. Pour valider les résultats de notre recherche, nous avons partagé un questionnaire avec 21 praticiens dans lequel ils indiquaient la fréquence avec laquelle ils rencontraient les problèmes que nous avons identifiés. Nos résultats montrent que (1) l’utilisation de l’apprentissage automatique dans des systèmes informatiques pose un ensemble unique de défis et que (2) les praticiens peinent à construire des SAAs de qualité. La plupart des problèmes découlent (1) d’un manque d’outils appropriés, (2) de problèmes organisationnels, ou (3) de connaissances limitées parmi les développeurs/praticiens. Notre recherche montre aussi qu’un grand nombre de praticiens ont des problèmes de qualité des données menant à des conséquences négatives sur les SAAs. Ils rapportent souvent devoir travailler avec des ensembles de données comportant des valeurs manquantes ou incorrectes.

Abstract

The last decades have brought significant advancements in Software Engineering (SE). One of the latest and most important milestones in SE is the integration of Machine Learning (ML) into software systems. New applications that would have been almost impossible to build without ML, such as self-driving cars, are now becoming part of our daily lives. In the meanwhile, more and more instances of these undesirable behaviors from these applications are reported. In the United States alone, over 400 car crashes of automated vehicles happened between July 2022 and May 2022. In addition to causing safety issues, ML Software Systems (MLSSs) of poor quality can have pervasive effects on many other important aspects of our daily lives. For example, an experimental recruiting tool developed by Amazon was shown to prefer men over women when filtering candidates for a job role. Hence, MLSSs have quality issues, and, like many issues, they must be understood to be solved. In this thesis, our goal is to understand and explain the quality issues of MLSSs and identify potential remedies. To achieve this objective, we first conduct a research study based on qualitative interviewing with practitioners to gather insights about their experience and practices when dealing with ML quality issues. Based on the knowledge gathered from 42 interviews, we extracted a list of 18 quality issues of MLSSs, for which we explained the causes and consequences. We report 21 mitigation techniques used by the practitioners to address the identified quality issues and propose 12 additional remedies based on the literature we reviewed. To validate our findings, we shared a questionnaire with 21 practitioners where they indicated how often they encountered the issues we identified. Our findings show that (1) using ML in software systems brings a unique set of challenges, and (2) practitioners struggle to build qualified MLSSs. Most of the issues stem from (1) a lack of appropriate tooling, (2) organizational challenges, or (3) limited knowledge of a topic among developers/ practitioners. Our research also shows that many practitioners experience data quality issues leading to negative downstream effects on MLSSs. The most common data quality issues were missing values and incorrect features or labels. Therefore, in a second study, we conducted a Systematic Literature Review (SLR) on data cleaning and ML hoping to identify remedies to data quality issues. More specifically, we examined works that proposed datacleaning techniques for ML or used ML to automate data cleaning. In total, we reviewed 101 papers published between 2016 and 2022 inclusively, from various academic databases. We covered 6 different types of data cleaning activities: feature cleaning, label cleaning, entity matching, outlier detection, imputation, and holistic data cleaning.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Foutse Khomh
URL de PolyPublie:	https://publications.polymtl.ca/57037/
Université/École:	Polytechnique Montréal
Date du dépôt:	10 mai 2024 10:54
Dernière modification:	08 avr. 2025 19:07

Citer en APA 7:	Côté, P.-O. (2023). Quality Issues in Machine Learning Software Systems: Definition and Remedies [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/57037/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document