<  Retour au portail Polytechnique Montréal

Who Tests the Testers? Assessing the Effectiveness and Trustworthiness of Deep Learning Model Testing Techniques

Florian Tambon

Thèse de doctorat (2024)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (7MB)
Afficher le résumé
Cacher le résumé

Résumé

L’arrivée des algorithmes d’apprentissage profond et leur intégration dans tous les domaines de la vie courante ont eu et continu d’avoir un impact important sur la société. Plus récemment, l’arrivée de l’Intelligence Artificielle générative à travers des technologies tel que Chat- GPT ont accéléré ce processus. En parallèle, plusieurs recherches ont montré les limitations de ces systèmes au regard de leurs possibles défaillances, posant la question de comment faire en sorte de prévenir ces problèmes pour améliorer leur fiabilité. Une manière établie de répondre à cette problématique consiste à tester ces systèmes, afin de détecter ces défaillances avant le déploiement de ces systèmes et trouver les fautes responsables et les réparer. À cet effet, plusieurs techniques de tests ont été développées au fil des années, en s’inspirant de techniques existantes dans le domaine du test logiciel ou en construisant de nouvelles méthodes adaptées à ces nouveaux algorithmes. Cependant, le développement de ces techniques a montré également que le nouveau paradigme apporté par l’apprentissage profond, i.e., le fait que la logique interne des modèles est “apprise” et non codée, a changé la donne. À travers cela, c’est la fiabilité et l’efficacité de ces méthodes de tests qui sont remises partiellement en question, ce qui compromet à son tour la fiabilité de ces algorithmes d’apprentissage profond et la confiance des utilisateurs. C’est dans ce contexte que se situe cette thèse. Ce travail, organisé en huit chapitres, vise à adresser la question de la fiabilité des techniques de tests appliqués aux modèles d’apprentissage profond via le développement de quatre cadriciels pour améliorer la fiabilité et l’efficacité de techniques de tests. Chacun d’entre eux est orienté sur un aspect différent en termes des limites des techniques de tests et du sous-paradigme d’apprentissage profond concernés, peignant différentes possibilités d’améliorer ces techniques de tests. Ce travail commence par une introduction (Chapitre 1) contextualisant le problème avant de définir les connaissances préalables nécessaires à cette thèse (Chapitre 2). Par la suite, une revue de la littérature illustre les différentes problématiques et techniques existantes liées à ce travail (Chapitre 3). Cela donne lieu à quatre chapitres décrivant chacun un cadriciel particulier.

Abstract

The rise of Deep Learning models and their integration into daily life have impacted society, and the recent trend of Generative Artificial Intelligence models has boosted this process. However, in parallel to those developments, several studies have shown the limitations of such models, notably the dramatic failures they incur, raising the question of their trustworthiness. One established way of dealing with this issue is to test those models so failures can be detected prior to deployment and the faults causing them to be identified and fixed. To that end, multiple testing techniques have been developed over the years, either adapted from traditional software testing or devised to adapt to those new models. However, the development of those techniques has shown that the new paradigm brought about by Deep Learning, that is, an inner logic “learned” and not coded, could impact the trustworthiness and effectiveness of the testing techniques itself, undermining the effort to foster users’ trust in Deep Learning models. This thesis takes place in that context and, organized in eight chapters, aims to deal with the trustworthiness of testing techniques applied to Deep Learning models by defining four frameworks for improving the trustworthiness and effectiveness of testing techniques in Deep Learning. Each framework is focused on a different aspect of the problem, both in terms of the limits of the testing techniques tackled and of the sub-paradigms of Deep Learning investigated, thus giving a comprehensive picture of the possible improvement. The thesis starts with an introduction (Chapter 1) to frame the problem the thesis is tackling and then provides prior knowledge of works dealt with in this work (Chapter 2). Then, a literature review (Chapter 3) is presented, describing related works and current problems related to the study. Finally, the following four chapters deal with the frameworks mentioned above. Chapter 4 starts by exploring the testing techniques targeting faults in the code and specifications of Deep Reinforcement Learning algorithms, extending the concept of mutation testing to this particular sub-paradigm of Deep Learning. This chapter illustrates the application issues of mutation technique in Deep Reinforcement Learning and shows a possible solution through the proposed framework RLMutation.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Foutse Khomh et Giuliano Antoniol
URL de PolyPublie: https://publications.polymtl.ca/59454/
Université/École: Polytechnique Montréal
Date du dépôt: 18 juin 2025 12:25
Dernière modification: 31 juil. 2025 13:41
Citer en APA 7: Tambon, F. (2024). Who Tests the Testers? Assessing the Effectiveness and Trustworthiness of Deep Learning Model Testing Techniques [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/59454/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document