Multimodal Emotion Recognition and Sentiment Analysis

Mémoire de maîtrise (2023)

Accès restreint: Personnel autorisé jusqu'au 10 mai 2025
Conditions d'utilisation: Tous droits réservés

Résumé

Le développement de l’intelligence artificielle et de ses sous-domaines tels que la vision artificielle et le traitement du langage naturel au cours de la dernière décennie a contribué à une progression majeure dans les domaines de la reconnaissance des émotions et de l’analyse des sentiments. Depuis plusieurs décennies, les chercheurs se concentrent sur la construction de modèles d’apprentissage profond capables de reconnaître l’état émotionnel d’une personne en analysant et en explorant les caractéristiques d’une seule modalité telle que le texte, la parole ou l’image. Bien que les performances des systèmes unimodaux ont beaucoup progressées, l’utilisation d’une seule modalité à la fois a pour conséquence d’ignorer des informations importantes qui pourraient exister dans d’autres modalités. Il est donc essentiel de développer un système de reconnaissance multimodale des émotions capable d’explorer différentes modalités de données pour prédire efficacement les émotions et les sentiments. Dans ce travail, nous proposons un nouveau réseau transformateur multimodal en intégrant les réseaux résiduels à portes pour améliorer les interactions entre les différentes modalités de données. En outre, nous étudions la capacité des transformateurs pré-entraînés sur des tâches de langage naturel à améliorer les performances de la tâche de reconnaissance des émotions multimodales en aval. Plusieurs architectures ont été proposées pour affiner le modèle GPT- 2 pré-entraîné afin d’intégrer les modalités image, texte et audio, et d’apprendre les différentes interactions entre ces modalités. Nous avons évalué l’efficacité des modèles proposés sur trois ensembles de données de référence : CMU-MOSI, CMU-MOSEI et IEMOCAP. En utilisant un transformateur multimodal avec GRN, nous avons obtenu des résultats compétitifs qui ont surpassé les performances de plusieurs modèles de pointe dans trois ensembles de données de référence. En outre, parmi les modèles pré-entraînés basés sur des transformateurs, certaines architectures proposées ont obtenu des résultats comparables, en particulier sur l’ensemble de données IEMOCAP.

Abstract

The rise of artificial intelligence and its sub-fields such as computer vision and natural language processing in the last decade has had a major contribution to the progression of the fields of emotion recognition and sentiment analysis. For many decades, researchers have been focusing on building deep-learning models that are able to recognize a person’s emotional state by analyzing and exploring the features of a single modality such as text, speech, or image. Although unimodal systems have steadily progressed in performance, using only a single modality at the time has the consequence of omitting important information that could exist in other modalities. Therefore, it is crucial to develop a multimodal emotion recognition system that is able to explore different modalities of data to effectively predict emotions and sentiments. In this work, we propose a new multimodal transformer network by integrating Gated Residual Networks to improve the interactions between the different modalities of data. Furthermore, we investigated the capability of transformers that are pre-trained on natural language tasks to improve the performance of the downstream multimodal emotion recognition task. Several architectures have been proposed to finetune a pre-trained GPT-2 model to embed image, text, and audio modalities, and to learn the different interactions between these modalities. We evaluated the effectiveness of our proposed models on three benchmark datasets CMU- MOSI, CMU-MOSEI, and IEMOCAP. Employing a multimodal transformer with GRN, we attained competitive results that surpassed the performance of several state-of-the-art models across three benchmark datasets. Additionally, among the pre-trained transformer-based models, certain proposed architectures demonstrated comparable results specifically on the IEMOCAP dataset.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Guillaume-Alexandre Bilodeau
URL de PolyPublie:	https://publications.polymtl.ca/57077/
Université/École:	Polytechnique Montréal
Date du dépôt:	10 mai 2024 10:56
Dernière modification:	20 mars 2025 06:59

Citer en APA 7:	Hajlaoui, R. (2023). Multimodal Emotion Recognition and Sentiment Analysis [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/57077/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document