<  Back to the Polytechnique Montréal portal

Méthode de recherche d'information basée sur LDA : étude de cas sur trois revues québécoises en sciences humaines et sociales

Arthur Tobler

Master's thesis (2019)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (4MB)
Show abstract
Hide abstract

Abstract

Enabling a quick access to relevant information is a crucial issue in a world saturated with data. Specifically, extracting information from unstructured data like text is a difficult task. The machine learning approach to solve this task has recently shown promising results. However, the literature does not tackle the operationalization of these algorithms to data that differs from corpus published in English in the field of natural sciences. Thus, the application of these methods to research issues in social sciences stays rather unexplored. A specific family of probabilistic models, known as topic models, has shown promising results on some tasks such as document classification. However, further studies are needed to enable a full exploitation of these models for social scientists. The goal of this work is to visualize and evaluate a specific topic model known as Latent Dirichlet Allocation, on a corpus of articles in social sciences. We develop a methodology to integrate this model into an information retrieval task. Our study first characterizes some key parameters needed to use this mode. It shows that the lemmatization of vocabulary does not bring any significant benefit to the results. It also indicates that the methods used to evaluate topic models in the literature are not enough to ensure the reliability of these models when applied to a corpus in social sciences. To fill this gap, we developed an external validation method through an information retrieval task evaluated by SHS experts. Three main results were obtained. First, directly using the latent representation of the LDA leads to better relevant results compared to an algorithm using a frequency count of terms related to the query. Second, the relevance of results appears to be independent of the number of topics used in the LDA model. Finally, the specificity of the query does not affect clearly the search results.

Résumé

L'accès rapide à une information pertinente est un enjeu crucial dans un monde contemporain inondé de données. En particulier, extraire efficacement de l'information à partir de données non structurées comme le texte est une tâche difficile. En réponse à ce besoin, l'approche d'apprentissage automatique a montré des résultats prometteurs. Toutefois, la littérature se préoccupe peu de l'opérationnalisation de ces algorithmes à des données différentes de corpus en anglais dans le domaine des sciences naturelles. De fait, les pistes d'application de ces méthodes auprès de la communauté de chercheurs en sciences sociales sont nombreuses mais restent inexploitées. En particulier, une famille de modèles probabilistes, regroupés sous le nom de modèles de thèmes, s'est avérée prometteuse sur certaines tâches telles que la classification et la recherche de documents. Toutefois, du chemin reste à parcourir pour exploiter le potentiel de ces modèles auprès de chercheurs en sciences sociales. Le but de ce travail est de visualiser, d'évaluer et d'appliquer un modèle de thèmes, le Latent Dirichlet Allocation (LDA), sur un corpus d'articles en sciences humaines et sociales. En particulier, nous proposons une méthodologie d'intégration de ce modèle à une tâche de recherche d'information permettant d'évaluer la pertinence du LDA sur ce type de collection. L'étude caractérise d'abord quelques paramètres clés dans l'utilisation de ce modèle. Elle montre en particulier que la lemmatisation du vocabulaire n'apporte aucun avantage significatif aux résultats obtenus. Ensuite, elle montre que les méthodes d'évaluation du LDA employées dans la littérature ne sont pas suffisantes pour permettre une application fiable de ces modèles sur les revues étudiées. Pour répondre à ce manque, une méthode de validation externe basée sur une tâche de recherche de documents a donc été développée puis évaluée par des universitaires en SHS. Trois résultats principaux ressortent de cette évaluation opérationnelle. En premier lieu, utiliser directement la représentation vectorielle latente du modèle LDA améliore la pertinence des résultats par rapport à un algorithme utilisant une fréquence de termes liés à la requête. Ensuite, les résultats de fouille sont indépendants du nombre de thèmes du modèle LDA utilisé pour effectuer la fouille dans le cas où on se base sur l'espace latent du LDA. Enfin, l'étude de la spécificité de la requête sur les résultats de fouille n'a pas dégagé d'effet clair sur le corpus étudié.

Department: Department of Mathematics and Industrial Engineering
Program: Maîtrise recherche en génie industriel
Academic/Research Directors: Catherine Beaudry and Michel Gagnon
PolyPublie URL: https://publications.polymtl.ca/4075/
Institution: Polytechnique Montréal
Date Deposited: 18 Oct 2021 15:35
Last Modified: 05 Apr 2024 15:01
Cite in APA 7: Tobler, A. (2019). Méthode de recherche d'information basée sur LDA : étude de cas sur trois revues québécoises en sciences humaines et sociales [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/4075/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item