<  Back to the Polytechnique Montréal portal

Large Scale Conditional Multitask Learning for Natural Language Processing

Amine El Hattami

Masters thesis (2021)

[img] Terms of Use: All rights reserved.
Restricted to: Repository staff only until 14 July 2022.
Cite this document: El Hattami, A. (2021). Large Scale Conditional Multitask Learning for Natural Language Processing (Masters thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/5613/
Show abstract Hide abstract

Abstract

RÉSUMÉ: Récemment, les “Masked Language Models” (MLMs) entrainés sur une large base de données non étiquetées ont généré des résultats de pointe pour plusieurs tâches dans le domaine du Traitement de Langage Naturel (NLP). Un grand nombre des soumissions les mieux classées au benchmark “General Language Understanding Evaluation” (GLUE) utilisent un modèle basé sur l’architecture “Bidirectional Encoder Representations from Transformers” (BERT).La formule “BERT + “fine tuning” par tâche individuelle” demeure prévalente dans la recherche ; cet outil permet en effet à plusieurs chercheurs d’aboutir à des résultats de pointe.Cependant, la méthode du “fine-tuning” manque d’efficacité quant à la quantité de paramètres utilisés, puisqu’il est probable qu’elle requière un nouveau modèle pour chaque tâche.De plus, cette méthode est susceptible d’entraîner la perte des connaissances acquises durant l’étape riche en données du pré-entraînement, ce qui pourrait affecter la performance de généralisation du modèle. L’Apprentissage Multi-Tâche (MTL) est une approche efficace par transfert inductif inspirée par les modes d’apprentissage de l’humain qui s’avère prometteuse dans le domaine du Traitement de Langage Naturel. Pourtant, le MTL n’atteint pas le même niveau de performance que l’approche du “fine-tuning” qui est encore appliquée après l’étape de l’Apprentissage Multi-Tâche dans plusieurs études. Ce manque de performance est dû aux difficultés additionnelles telles que le transfert négatif, le sur-apprentissage de tâches pauvresen données et la perte de connaissances. ----------ABSTRACT: Recently, deep contextualized Masked Language Models (MLMs) trained on massive amount of unlabeled data pushed state-of-the-art (SOTA) results in many Natural Language Processing (NLP) tasks. Many leading submissions on the well-known General Language Understanding Evaluation (GLUE) benchmark are based on the Bidirectional Encoder Representations from Transformers (BERT) architecture. The formula "BERT + single task fine-tuning" continues to stay popular in many recent studies, constantly pushing SOTA results. However, fine-tuning is parameter inefficient since it may require a new model for each task. Moreover, it might overwrite the knowledge acquired during the data extensive pretraining, potentially hurting the generalization performance. Inspired by human ability to apply knowledge across tasks, multitask learning (MTL) is a powerful inductive transfer learning approach that showed promising in many NLP tasks. However, MTL alone doesn’t reach the performance of fine-tuning approach and many studies still apply fine-tuning after the MTL step. This lack of performance is attributed to the additional challenges like negative transfer, overfitting of low resource tasks and catastrophic forgetting.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Academic/Research Directors: Christopher J. Pal
Date Deposited: 14 Jul 2021 08:41
Last Modified: 14 Jul 2021 08:41
PolyPublie URL: https://publications.polymtl.ca/5613/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only