Verifiability of Unlearning Schemes Through Local Explanation

Saba Kasrelou

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

À mesure que les systèmes d’Intelligence Artificielle (IA) s’intègrent de plus en plus aux applications du quotidien, les préoccupations liées à la confidentialité des données et au respect des lois sur le « Droit à l’oubli » se sont accrues de manière significative. Les modèles d’apprentissage automatique deviennent de plus en plus vulnérables aux attaques de confidentialité, telles que les attaques par inférence de membership ( ou Membership Inference Attacks, MIA) et les attaques par inversion de modèle, qui peuvent révéler des données sensibles utilisées lors de l’entraînement. Cela a conduit à une attention accrue envers le « désapprentissage » des modèles (connu sous Machine Unlearning, MU), un processus conçu pour éliminer sélectivement l’impact de certains points de données dans un modèle déjà entraîné. Le désapprentissage des modèles constitue un mécanisme essentiel pour répondre aux préoccupations de confidentialité et se conformer aux réglementations. Les méthodes traditionnelles de MU nécessitent souvent de réentraîner le modèle depuis le début, une approche lente et coûteuse. Les avancées récentes ont proposé des techniques alternatives de désapprentissage par réorganisation des données et manipulation des modèles, permettant d’assurer que certains points de données puissent être effectivement retirés d’un modèle d’apprentissage automatique sans recourir à un réentraînement coûteux. Cependant, une méthode de vérification fiable et explicable que le MU a effectivement eu lieu reste encore à explorer. Cette recherche propose une méthode de vérification novatrice basée sur l’explicabilité locale pour garantir que les opérations de désapprentissage soient à la fois efficaces et transparentes. Notre approche utilise des outils d’IA explicable, notamment les explications agnostiques et localement interprétables des modèles (LIME), afin d’évaluer si le désapprentissage a bien retiré les données sensibles sans compromettre l’intégrité du modèle. En capturant le comportement local des modèles avec et sans les données cibles, nous proposons un processus permettant de détecter les changements confirmant la suppression des informations sensibles. Cette méthodologie est structurée en trois phases : construction de modèles avec et sans les données cibles, validation du désapprentissage avec MIA, et application d’explications locales pour vérifier les résultats du désapprentissage. Cette recherche contribue à renforcer la fiabilité, la transparence et le comportement des modèles d’apprentissage automatique, tout en faisant progresser le domaine du désapprentissage des modèles en introduisant l’interprétabilité et l’explicabilité. Notre méthode se concentre non seulement sur la comparaison de différentes techniques de désapprentissage, mais fournit également des explications claires, garantissant que les utilisateurs puissent comprendre et faire confiance au processus. Nous fournissons des preuves de la vérification de l’oubli localement grâce à l’analyse de la redistribution de l’importance des caractéristiques à l’aide de LIME. Nous nous concentrons sur la vérification de l’oubli réussi en fournissant des preuves basées sur des techniques d’approximation locale utilisant la redistribution de l’importance des caractéristiques.

Abstract

As Artificial Intelligence (AI) systems become more integrated into everyday applications, concerns over data privacy and compliance with "Right to Be Forgotten" laws have grown significantly. Machine learning models are increasingly susceptible to privacy attacks such as Membership Inference Attacks (MIA) and model inversion attacks, which can reveal sensitive training data. This has led to an increased focus on Machine Unlearning (MU), a process designed to selectively remove the impact of specific data points from an already-trained model. Machine unlearning is a critical mechanism for addressing privacy concerns and adhering to regulations. Traditional methods often require retraining the model from scratch, which is a costly and time-consuming approach. Recent advancements have proposed alternative unlearning techniques through data reorganization and model manipulation. This involves ensuring that specific data points can be effectively removed from a machine-learning model without the need for expensive retraining. Yet a reliable and explainable verification method to ensure that unlearning occurred remains to be explored. This research introduces a novel verification method leveraging local explainability to ensure the effectiveness and transparency of unlearning operations. Our approach leverages explainable AI tools, including Local Interpretable Model-Agnostic Explanations (LIME) to assess whether unlearning has successfully removed sensitive data without compromising model integrity. By capturing the local behavior of models with and without the target data, we propose a process to detect changes that confirm the removal of sensitive information. This methodology is structured in three phases: constructing models with and without the target data, validating unlearning with MIA, and applying local explanations to verify unlearning outcomes. Ultimately, this research contributes to enhancing the trustworthiness, transparency, and behavior of machine learning models, while also advancing the field of machine unlearning with the focus on interpretability and explainability. Our method not only focuses on comparing different unlearning schemes but also provides clear explanations, ensuring users can understand and trust the process. We provide evidence of unlearning verification locally through analysis of feature importance redistribution using LIME. We focus on verifying successful unlearning by providing evidence based on local approximation techniques using feature importance redistribution.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Samuel Pierre et Ranwa Al Mallah
URL de PolyPublie:	https://publications.polymtl.ca/64697/
Université/École:	Polytechnique Montréal
Date du dépôt:	11 févr. 2026 09:16
Dernière modification:	11 févr. 2026 09:39

Citer en APA 7:	Kasrelou, S. (2025). Verifiability of Unlearning Schemes Through Local Explanation [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/64697/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document