TagDebias: Entity and Concept Typing for Social Bias Mitigation in Pretrained Language Models

Mémoire de maîtrise (2024)

Accès restreint: Personnel autorisé jusqu'au 22 août 2025
Conditions d'utilisation: Tous droits réservés

Résumé

Les modèles de langage préentraînés sont entraînés sur de grands corpus provenant d’Internet et acquièrent des biais de genre à partir des données. De ce fait, ils peuvent potentiellement propager ce biais dans les tâches ultérieures. Par conséquent, il est impératif d’identifier et d’atténuer le biais social d’abord dans le jeu de données, puis dans les modèles de langage préentraînés. Pour remédier au biais de genre dans les modèles de langue, nous proposons une approche de balisage appelée TagDebias qui consiste à utiliser des abstractions de niveau supérieur pour remplacer les termes spécifiques au genre. Cette méthode est en contraste avec l’approche dite du nettoyage, qui supprime les termes indicateurs de genre du corpus. Notre objectif est d’affiner les modèles de langage préentraînés sur le corpus balisé afin de débiaiser leurs poids. Certaines de nos questions de recherche (RQ1 et RQ2) examinent l’efficacité du balisage pour atténuer le biais et son impact sur les performances du modèle dans les tâches ultérieures. Les résultats indiquent que la stratégie de balisage maintient non seulement les performances du modèle dans les tâches ultérieures, mais améliore également l’équité par rapport aux modèles nettoyés et initiaux. Notamment, la stratégie de balisage des "terme spécifique au genre", appelée modèle TagDebias, s’est révélée la plus efficace pour favoriser l’équité parmi les différents modèles balisés, nettoyés et initiaux. Nous avons également proposé une nouvelle méthode d’augmentation de données. En augmentant à la fois les versions balisées et nettoyées avec des exemples par insertion de virgules et en répétant les instances (avec et sans balises) avec le même label, nous avons cherché à surmonter les limitations des méthodes traditionnelles d’augmentation de données avec permutation de genre. Notre question de recherche (RQ3) porte sur l’effet de l’augmentation de données basée sur le balisage sur la production de modèles de langage plus équitables. Après la phase d’augmentation et d’affinage, nous avons constaté que l’augmentation des données dans le modèle nettoyé, en particulier en doublant les instances, améliorait légèrement l’équité du modèle, mais pas notre modèle TagDebias.

Abstract

Pretrained language models are trained on large corpora from the internet and learn gender imbalances from the data. They could potentially propagate this bias in downstream tasks. Therefore, it is imperative to identify and mitigate social bias first in the dataset and then in pretrained language models. To address gender bias in language models, we propose a tagging approach called TagDebias that involves using higher-level abstractions to replace gender-specific terms. This method is contrasted with the scrubbing approach, which removes gender indicator terms from the corpus. Our aim is to fine-tune pretrained language models on the tagged-corpus to debias their weights. Some of our research questions (RQ1 and RQ2) investigate the effectiveness of tagging in mitigating bias and its impact on model performance in downstream tasks. The findings indicate that the tagging strategy not only maintains model performance in downstream tasks but also improves fairness compared to scrubbed and initial models. Notably, the "gender-specific-term" tagging strategy, referred to as TagDebias model, emerged as the most effective in promoting fairness among the various tagged, scrubbed, and the initial models. We also proposed a novel data augmentation method. By augmenting both tagged and scrubbed versions with examples through comma insertion and repeating the instances (with and without tags) with the same label, we aimed to overcome limitations of traditional data augmentation methods with gender swapping. Our research question (RQ3) focus on whether tagging-based data augmentation leads to fairer PLMs. After the augmentation and fine-tuning stage, we found that the scrubbed-data augmentation, particularly when doubling instances, slightly improved model fairness, but not our TagDebias model.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Amal Zouaq et Jinghui Cheng
URL de PolyPublie:	https://publications.polymtl.ca/57995/
Université/École:	Polytechnique Montréal
Date du dépôt:	22 août 2024 14:09
Dernière modification:	29 mars 2025 16:36

Citer en APA 7:	Moslemi, M. (2024). TagDebias: Entity and Concept Typing for Social Bias Mitigation in Pretrained Language Models [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/57995/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document