<  Retour au portail Polytechnique Montréal

New Faithfulness-Centric Interpretability Paradigms for Natural Language Processing

Andreas Madsen

Thèse de doctorat (2024)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (8MB)
Afficher le résumé
Cacher le résumé

Résumé

L’apprentissage automatique, en particulier les réseaux de neurones, est aujourd’hui fréquemment utilisé dans de nombreuses applications, telles que l’évaluation des prêts, les résultats de recherche et les recommandations d’embauche. Ces systèmes fournissent souvent des décisions automatisées qui affectent la vie de la plupart des gens. Ces dernières années, les applications de traitement automatique du language naturel (TALN) ont connu un essor considérable, car des modèles polyvalents et très efficaces en termes de données sont devenus disponibles, en particulier les systèmes de chat, qui sont désormais largement utilisés, même directement par le grand public. Malheureusement, ces systèmes ne sont pas exempts de défauts. Bien que dans les systèmes d’embauche, il existe des cas documentés de discrimination fondée sur le sexe, comme le fait de favoriser "Chess club member" et de défavoriser "Women’s Chess Club member" dans un curriculum vitae, ou un système qui pense qu’un diplôme en informatique est une qualification nécessaire pour être dactylographe dans un hôpital. Si le premier peut peut-être être atténué en analysant le modèle pour détecter les préjugés sexistes et les corriger, le second est si spécifique qu’il ne peut être révélé qu’en expliquant la prédiction du modèle. L’interprétabilité est le domaine qui traite de l’explication des modèles et des ensembles de données aux humains en termes compréhensibles. L’objectif est généralement d’éviter un comportement indésirable, comme dans les exemples ci-dessus. Malheureusement, ce domaine est souvent confronté avec des défis dû à la production d’explications erronées, c’est-à-dire qui ne reflètent pas le modèle. Par exemple, une explication qui indique quels mots sont importants n’est pas forcément meilleure qu’une simple indication de mots au hasard. Lorsqu’une explication reflète le modèle, cela consiste en une explication fidèle.

Abstract

Machine Learning, particularly Neural Networks, is nowadays frequently used in many applications, such as loan assessment, search results, and hiring recommendations. These systems often provide automated decisions which affect most people’s lives. In recent years, Natural Language Processing (NLP) applications have, in particular, seen a great increase as very data-efficient general-purpose models have become available, especially chat systems, which are now being widely used, even by the regular public directly. Unfortunately, these systems are not without flaws. In hiring systems alone, there are documented cases of gender discrimination, such as favoring “Chess club member” and disfavoring “Women’s Chess Club member” in a resume, or a system that thinks that a computer science degree is a necessary qualification to be a typist at a hospital. While the former can perhaps be mitigated by analyzing the model for gender bias and correcting this, the latter is so specific that it can likely only be revealed by explaining the model’s prediction. Interpretability is the field that deals with explaining models and datasets to humans in understandable terms. The goal is typically to prevent undesired behavior, as in the above examples. Unfortunately, the field is often challenged by providing false explanations, meaning the explanations do not reflect the model. For example, an explanation that indicates which input words are important might not be better than simply pointing at random words. When an explanation does reflect the model, it is termed a faithful explanation. Unfortunately, measuring if an explanation is faithful (faithfulness metric) is quite

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Sarath Chandar Anbil Parthipan
URL de PolyPublie: https://publications.polymtl.ca/59883/
Université/École: Polytechnique Montréal
Date du dépôt: 18 juin 2025 14:03
Dernière modification: 31 juil. 2025 17:59
Citer en APA 7: Madsen, A. (2024). New Faithfulness-Centric Interpretability Paradigms for Natural Language Processing [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/59883/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document