Large Scale Conditional Multitask Learning for Natural Language Processing

Amine El Hattami

Mémoire de maîtrise (2021)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (2MB)

Afficher le résumé

Cacher le résumé

Résumé

Récemment, les “Masked Language Models” (MLMs) entrainés sur une large base de données non étiquetées ont généré des résultats de pointe pour plusieurs tâches dans le domaine du Traitement de Langage Naturel (NLP). Un grand nombre des soumissions les mieux classées au benchmark “General Language Understanding Evaluation” (GLUE) utilisent un modèle basé sur l'architecture “Bidirectional Encoder Representations from Transformers” (BERT).La formule “BERT + “fine tuning” par tâche individuelle” demeure prévalente dans la recherche ; cet outil permet en effet à plusieurs chercheurs d'aboutir à des résultats de pointe.Cependant, la méthode du “fine-tuning” manque d'efficacité quant à la quantité de paramètres utilisés, puisqu'il est probable qu'elle requière un nouveau modèle pour chaque tâche.De plus, cette méthode est susceptible d'entraîner la perte des connaissances acquises durant l'étape riche en données du pré-entraînement, ce qui pourrait affecter la performance de généralisation du modèle. L'Apprentissage Multi-Tâche (MTL) est une approche efficace par transfert inductif inspirée par les modes d'apprentissage de l'humain qui s'avère prometteuse dans le domaine du Traitement de Langage Naturel. Pourtant, le MTL n'atteint pas le même niveau de performance que l'approche du “fine-tuning” qui est encore appliquée après l'étape de l'Apprentissage Multi-Tâche dans plusieurs études. Ce manque de performance est dû aux difficultés additionnelles telles que le transfert négatif, le sur-apprentissage de tâches pauvresen données et la perte de connaissances.

Abstract

Recently, deep contextualized Masked Language Models (MLMs) trained on massive amount of unlabeled data pushed state-of-the-art (SOTA) results in many Natural Language Processing (NLP) tasks. Many leading submissions on the well-known General Language Understanding Evaluation (GLUE) benchmark are based on the Bidirectional Encoder Representations from Transformers (BERT) architecture. The formula "BERT + single task fine-tuning" continues to stay popular in many recent studies, constantly pushing SOTA results. However, fine-tuning is parameter inefficient since it may require a new model for each task. Moreover, it might overwrite the knowledge acquired during the data extensive pretraining, potentially hurting the generalization performance. Inspired by human ability to apply knowledge across tasks, multitask learning (MTL) is a powerful inductive transfer learning approach that showed promising in many NLP tasks. However, MTL alone doesn't reach the performance of fine-tuning approach and many studies still apply fine-tuning after the MTL step. This lack of performance is attributed to the additional challenges like negative transfer, overfitting of low resource tasks and catastrophic forgetting.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Christopher J. Pal
URL de PolyPublie:	https://publications.polymtl.ca/5613/
Université/École:	Polytechnique Montréal
Date du dépôt:	14 juil. 2021 08:41
Dernière modification:	08 avr. 2024 09:24

Citer en APA 7:	El Hattami, A. (2021). Large Scale Conditional Multitask Learning for Natural Language Processing [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/5613/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document