<  Retour au portail Polytechnique Montréal

Building Robust Deep Learning Models for Visual Perception Tasks

Seif Mzoughi

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (21MB)
Afficher le résumé
Cacher le résumé

Résumé

L’Apprentissage Profond (Deep Learning - DL) a révolutionné de nombreux domaines, transformant fondamentalement notre manière d’aborder les problèmes complexes en vision par ordinateur, traitement du langage naturel et systèmes autonomes. Toutefois, malgré des avancées spectaculaires, ces modèles restent vulnérables aux perturbations adversariales et aux entrées inattendues, ce qui remet en question leur fiabilité dans des applications critiques. Cette préoccupation croissante est particulièrement marquée en vision par ordinateur, où les défaillances des modèles peuvent avoir de graves conséquences dans le monde réel. Garantir leur robustesse implique de relever plusieurs défis fondamentaux : identifier précisément les vulnérabilités des modèles, diversifier les scénarios de test pour mieux évaluer leur résilience, s’assurer que les perturbations utilisées pour ces évaluations restent réalistes, et enfin, développer des stratégies efficaces pour renforcer la fiabilité des modèles face aux attaques et aux changements de distribution des données. Dans cette étude, nous abordons ces défis sous deux angles complémentaires. D’abord, nous proposons une évaluation systématique des Générateurs d’Entrées de Test (Test Input Generators - TIGs) utilisés dans la classification d’images. Ces outils sont essentiels pour identifier les faiblesses des modèles en générant des entrées capables de révéler leurs limites. Cependant, leur efficacité varie selon plusieurs critères, notamment leur capacité à détecter des défauts, la diversité des entrées générées et l’authenticité des perturbations produites. Pour mieux comprendre ces aspects, nous analysons quatre TIGs de pointe, i.e., DeepHunter, DeepFault, AdvGAN et SinVAD; en les testant sur trois modèles pré-entraînés (LeNet-5, VGG16 et EfficientNetB3) et des ensembles de données de complexité croissante (MNIST, CIFAR-10 et ImageNet-1K). Nos résultats montrent que les approches basées sur des modèles génératifs, comme AdvGAN et SinVAD, sont particulièrement efficaces pour exposer des problèmes de robustesse sur des jeux de données simples, mais peinent à produire des résultats convaincants sur des distributions plus complexes. En revanche, les approches basées sur la perturbation, comme DeepHunter qui utilise le fuzzing guidé par la couverture et DeepFault qui exploite la localisation de fautes, offrent une meilleure stabilité et une performance plus homogène à travers différentes tâches. Ces observations soulignent la nécessité de concevoir des outils de test plus adaptatifs et capables de capturer la complexité croissante des ensembles de données du monde réel. Deuxièmement, nous explorons la segmentation d’images, un domaine où la robustesse des modèles est encore peu étudiée malgré son importance dans des applications critiques telles que l’imagerie médicale et la conduite autonome. Contrairement à la classification, où les fautes peuvent être détectées par des erreurs directes de prédiction, la segmentation exige des analyses plus fines, car les défaillances se traduisent par des erreurs localisées qui peuvent être difficiles à détecter avec des approches de test classiques. Pour pallier ce manque, nous introduisons le Test Métamorphique de Robustesse en Segmentation (SegRMT), une approche innovante combinant les tests métamorphiques avec des algorithmes génétiques afin de générer des entrées adversariales pertinentes. Testé sur le modèle DeepLabV3 avec le jeu de données Cityscapes, SegRMT démontre une capacité à détecter des vulnérabilités subtiles tout en améliorant la robustesse des modèles de manière plus efficace que les méthodes d’entraînement adversarial traditionnelles. Son innovation clé repose sur la génération de perturbations qui préservent la cohérence visuelle tout en exerçant un impact significatif sur les performances du modèle, grâce à une stricte maîtrise du rapport signal-bruit de crête (PSNR). Cette approche conduit à des améliorations notables en termes de généralisation, comme en témoignent les scores moyens plus élevés d’Intersection over Union (mIoU) lors de tests adversariaux croisés. Notre travail apporte une contribution majeure à l’assurance qualité en apprentissage profond, en proposant à la fois un cadre d’évaluation exhaustif des TIGs existants et une technique novatrice pour renforcer la robustesse des modèles de segmentation. Ces outils et méthodologies permettent aux praticiens d’évaluer plus efficacement et d’améliorer la fiabilité des systèmes d’apprentissage profond dans des applications critiques, contribuant ainsi au développement de systèmes d’IA plus résilients et fiables.

Abstract

Deep Learning (DL) has revolutionized numerous domains, fundamentally transforming how we approach complex problems in computer vision, natural language processing, and autonomous systems. However, despite remarkable progress, these models remain vulnerable to adversarial perturbations and unexpected inputs, calling into question their reliability in critical applications such as healthcare, autonomous driving, and cybersecurity. Ensuring their robustness involves tackling several fundamental challenges: precisely identifying model vulnerabilities, diversifying test scenarios to better assess their resilience, ensuring that perturbations used for evaluations remain realistic, and developing effective strategies to strengthen model reliability against attacks and shifts in data distribution. In this study, we address these challenges from two complementary perspectives. First, we propose a systematic evaluation of Test Input Generators (TIGs) used in image classification. These tools are essential for identifying model weaknesses by generating inputs designed to expose their limitations. However, their effectiveness varies according to several criteria, including their ability to detect defects, the diversity of generated inputs, and the authenticity of the perturbations produced. To better understand these aspects, we evaluate four state-of-the-art TIGs, i.e., DeepHunter, DeepFault, AdvGAN, and SinVAD; testing them on three pre-trained models (LeNet-5, VGG16, and EfficientNetB3) and datasets of increasing complexity (MNIST, CIFAR-10, and ImageNet-1K). Our results show that generative model-based approaches, such as AdvGAN and SinVAD, are particularly effective at exposing robustness issues on simpler datasets but struggle to produce convincing results on more complex distributions. In contrast, more traditional approaches like DeepFault offer better stability and more consistent performance across different tasks. These findings highlight the need for more adaptive testing tools capable of capturing the growing complexity of real-world datasets. Secondly, we explore image segmentation, an area where model robustness is still mostly underexplored despite its importance in critical applications such as medical imaging and autonomous driving. Unlike classification, where faults can be detected through direct prediction errors, segmentation requires more detailed analysis, as failures manifest as localized errors that can be challenging to detect with traditional testing approaches. To address this gap, we introduce Metamorphic Robustness Testing for Segmentation (SegRMT), an innovative approach combining metamorphic testing with genetic algorithms to generate relevant adversarial inputs. Tested on the DeepLabV3 model with the Cityscapes dataset, SegRMT demonstrates the ability to detect subtle vulnerabilities while improving model robustness more effectively than traditional adversarial training methods. The key innovation of Seg- RMT lies in generating perturbations that maintain visual coherence while exerting a significant impact on model performance. This is achieved through a strict control of the Peak Signal-to-Noise Ratio (PSNR). This approach leads to significant improvements in terms of generalization, as evidenced by higher average Intersection over Union (mIoU) scores during cross-adversarial testing. Our work makes an important contribution to quality assurance in deep learning by providing both a comprehensive evaluation framework for existing Test Input Generators (TIGs) and an innovative technique for enhancing the robustness of segmentation models. These tools and methodologies enable practitioners to more effectively assess and improve the reliability of deep learning systems in critical applications, thereby contributing to the development of more resilient and reliable AI systems.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Foutse Khomh
URL de PolyPublie: https://publications.polymtl.ca/63448/
Université/École: Polytechnique Montréal
Date du dépôt: 26 août 2025 09:05
Dernière modification: 26 août 2025 11:16
Citer en APA 7: Mzoughi, S. (2025). Building Robust Deep Learning Models for Visual Perception Tasks [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/63448/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document