<  Retour au portail Polytechnique Montréal

Robustness of Deep Learning Models against Extraction Attacks

Kacem Khaled

Thèse de doctorat (2024)

[img] Accès restreint: Personnel autorisé jusqu'au 20 août 2026
Conditions d'utilisation: Tous droits réservés
Afficher le résumé
Cacher le résumé

Résumé

Les modèles d’apprentissage profond (DL) ont considérablement progressé ces dernières années, trouvant des applications dans des systèmes critiques tels que la robotique et les véhicules autonomes. Les fournisseurs de modèles DL proposent désormais leurs modèles aux utilisateurs finaux en tant que service par le biais d’une interface de programmation d’applications (API) de prédiction. Souvent, les utilisateurs n’ont pas accès à l’architecture du modèle original, mais peuvent seulement envoyer des données d’entrée (par exemple, des images) et recevoir des prédictions (par exemple, des probabilités). Cependant, il a été démontré que même avec un simple accès aux modèles DL, ces systèmes sont vulnérables aux menaces de sécurité et peuvent être extraits ou volés par des utilisateurs malveillants. Les attaquants exploitent les prédictions du modèle de la victime pour étiqueter un ensemble de données qui peut être utilisé pour former un modèle de substitution qui imite la victime. Il est crucial de protéger le modèle contre l’extraction, car ces attaques présentent un risque important de vol de la propriété intellectuelle. En outre, les attaques par extraction peuvent servir de premier pas pour réaliser d’autres attaques où le modèle volé sert de substitut qui imite la victime initiale. Outre les attaques par extraction, les réseaux neuronaux convolutifs (CNNs) sont également vulnérables aux attaques par exemples adverses, où un attaquant peut soigneusement concevoir un exemple avec une modification légèrement imperceptible qui trompe un classificateur (DL). Les travaux antérieurs recommandent l’entraînement adverse, qui inclut des exemples adverses dans l’ensemble d’entraînement, afin d’améliorer la robustesse contre les exemples adverses. Toutefois, cette approche a une incidence sur le comportement du modèle et sur ses frontières décisionnelles, ce qui peut soulever d’autres risques. Les travaux de l’état de l’art sur l’évaluation des vulnérabilités contre les attaques par extraction se concentrent uniquement sur (CNNs) obtenu dans des circonstances d’apprentissage naturelles sans tenir compte des scénarios imposés par la sécurité, tels que l’apprentissage adverse. D’autre part, les attaques d’extraction de l’état de l’art et leurs défenses n’étudient pas les situations où les ressources sont limitées, telles que les CNNs compressés. Avec la demande croissante de systèmes intelligents, le déploiement de modèles DL sur des appareils périphériques pose des problèmes matériels auxquels les chercheurs remédient par la compression des modèles (par exemple, la quantification). Les défenses existantes contre les attaques par vol sont encore imparfaites car elles ne prennent pas en compte les limitations matérielles possibles, et elles entraînent souvent des retards d’inférence considérables et des coûts de calcul élevés.

Abstract

Deep Learning (DL) models have advanced significantly in recent years, finding applications in critical systems such as robotics and autonomous vehicles. DL providers now offer their models to end users as a service through a prediction Application Programming Interface (API). Users often do not have access to the original model architecture but can only send inputs (e.g., images) and receive predictions (e.g., probabilities). However, it has been demonstrated that even with query access to DL models, these systems are vulnerable to security threats and can be extracted or stolen by malicious users. The attackers leverage the predictions of the victim model to label a dataset that can be used to train a surrogate model that mimics the victim. Protecting the model from extraction is crucial since these attacks pose a significant risk of Intellectual Property (IP) theft. Besides, extraction attacks may serve as a stepping stone to perform other attacks where the stolen model serves as a surrogate that mimics the original victim. In addition to extraction attacks, CNNs are also vulnerable to adversarial examples attacks, where an attacker can carefully craft an example with a slightly imperceptible modification that fools a DL classifier. Prior work recommends adversarial training, which includes adversarial examples in the training set, to improve robustness against adversarial examples. However, this approach impacts the model’s behavior and its decision boundary which may raise other risks. State-of-the-art work on assessing the vulnerabilities against extraction attacks only focuses on CNNs obtained under natural training circumstances without considering security-imposed scenarios, such as adversarial training. On the other hand, state-of-the-art extraction attacks and their defenses do not investigate resource-constrained situations, such as compressed CNNs. With the growing demand for smart systems, deploying DL models on edge devices introduces hardware challenges that researchers tackle through model compression (e.g., quantization). Existing defenses against stealing attacks are still flawed since they do not consider possible hardware limitations, and they often incur considerable inference delays and heavy computational costs. Some defenses require training an auxiliary model to perform the defense which is impractical for edge device implementations. Therefore, assessing the robustness of compressed models and proposing efficient defenses tailored for these applications is needed. This thesis delves into the security and privacy vulnerabilities of DL vision models, particularly in the context of adversarial training, model stealing, and quantized CNNs: • In our first contribution, we begin by examining the susceptibility of adversarially trained models to extraction attacks.

Département: Département de génie informatique et génie logiciel
Programme: génie informatique
Directeurs ou directrices: Gabriela Nicolescu
URL de PolyPublie: https://publications.polymtl.ca/59029/
Université/École: Polytechnique Montréal
Date du dépôt: 20 août 2025 09:54
Dernière modification: 20 août 2025 10:41
Citer en APA 7: Khaled, K. (2024). Robustness of Deep Learning Models against Extraction Attacks [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/59029/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document