Techniques to Infer the Number of Latent Dimensions

Asana Neishabouri

Thèse de doctorat (2021)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

Trouver le nombre de variables latentes/cachées, ou le nombre de facteurs/dimensions latentes est un problème omniprésent dans de nombreux domaines. Le seul fait de pouvoir référer à ce concept avec une telle variété de vocabulaire dénote de son importance à travers les disciplines. De manière générale, nous référons aux dimensions latentes comme des facteurs qui peuvent expliquer la structure des données mais qui ne sont jamais directement observables. Le principe fondamental qui sous-tend l'estimation du nombre de dimensions latentes (DL, ou LD dans le texte anglais) est qu'on peut transformer un ensemble de données en une représentation plus compacte autour d'un nombre réduit de dimensions en minimisant la perte d'information. On présume que la représentation des données sous dimensions réduites contient moins de bruits et permet d'entraîner des modèles qui sont plus parcimonieux et souvent plus précis dans leurs prédictions. Le principe est fréquemment appliqué à domaines très variés tels la recherche d'information, la psychométrie et la psychologie, la modélisation des thématiques de textes, l'agglomération non supervisée, et les systèmes de recommandations pour ne nommer que ceux-ci. Les techniques de factorisation matricielle sont de bons exemples où nous devons déterminer le nombre de dimensions latentes avant la phase d'apprentissage. Des modèles non linéaires tels que LDA et les réseaux de neurones sont également confrontés au problème de l'indication du nombre de sujets et de noeuds à inclure dans le modèle avant d'exécuter une analyse sur un ensemble de données, un problème qui revient à trouver le nombre de facteurs latents qui est ensuite utilisé pour diverses tâches de prédictions ou de modélisation. Il est intéressant de noter que chaque domaine a ses propres méthodes de choix pour résoudre ce problème et peu d'études empruntent des méthodes d'autres domaines. Nous étudions l'efficacité de méthodes pour induire le nombre de DL provenant du domaine des statistiques, de la psychométrie et de l'apprentissage automatique. La performance de chaque méthode est analysée en fonction des caractéristiques des ensembles de données. Les résultats avec des données synthétiques et réelles révèlent non seulement de grandes différences en fonction de ces caractéristiques, mais en outre il n'existe pas de méthode universelle qui fonctionne le mieux dans toutes les conditions de données. Cette information est mise à profit afin (1) d'élaborer une approche qui fournit une estimation plus précise du nombre de DL et (2) un indicateur de la fiabilité de l'estimation obtenue.

Abstract

Finding the right number of latent variables/hidden variables, or latent factors/dimensions, is a ubiquitous problem. The various vocabulary that is used in many fields of study and refers to the concept of latent dimensions (LD), or to subtle nuances of this concept, is a clue to how widespread and important it is. LD relates to factors that cannot be observed directly but can only be inferred from the observed variables. The fundamental aim behind the estimation of the number of LD in a data set is that the data can be transformed to the lower-dimensional representation with a minimal loss of information. The lower-dimensional data is assumed to contain less noise and allows to build models that can significantly improve their prediction. Such models can cover many tasks such as information retrieval, psychology and psychometrics, topic modeling, clustering, and recommender systems, among others. Matrix factorization techniques are good examples where we need to determine the number of latent dimensions prior to the learning phase. Non-linear models such as LDA and neural networks also face the issue of stating the number of topics and nodes to include in the model before running an analysis over a data set, a problem that is akin to finding the number of latent factors which is then used for various predictions or modeling tasks. Interestingly, each application domain has its own methods of choice to solve this problem and few studies borrow methods from outside their fields. We investigate the effectiveness of popular methods to induce the number of LD from the fields of factor analysis, psychometrics, and machine learning. The performance of each method is analyzed over datasets with different characteristics. Our experimental results over synthetic and real datasets reveals that data characteristics have a crucial effect on the methods performance and that there is no universal method that performs best in all data conditions. We leverage these information to (1) obtain a more accurate overall estimate and (2) as an indicator of the reliability of the LD estimate. For the first task, we propose an ensemble method approach to combine the results from multiple methods and obtain an estimate of LD. Results show the approach performs better than any single method. On the second task, we show that the variance across the method's estimates is a good indicator of the correctness of the obtained LD from the ensemble approach. We also investigate estimating the number of topics for topics modeling using multiple methods.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Michel C. Desmarais
URL de PolyPublie:	https://publications.polymtl.ca/9476/
Université/École:	Polytechnique Montréal
Date du dépôt:	14 avr. 2022 14:16
Dernière modification:	03 oct. 2024 17:04

Citer en APA 7:	Neishabouri, A. (2021). Techniques to Infer the Number of Latent Dimensions [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/9476/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document