<  Retour au portail Polytechnique Montréal

Improving Information Retrieval and Recommender Systems with Contextual Data and Re-Ranking

Baharan Nouriinanloo

Mémoire de maîtrise (2024)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (949kB)
Afficher le résumé
Cacher le résumé

Résumé

L’accès à l’information est un besoin humain fondamental. Dans le monde actuel axé sur les données, la croissance exponentielle de l’information a créé une demande critique pour des systèmes capables de récupérer efficacement des données pertinentes. Les systèmes de recherche d’information (Information Retrieval, IR) et les systèmes de recommandation ont émergé comme des solutions clés, permettant aux utilisateurs d’accéder à du contenu pertinent et de recevoir des recommandations personnalisées. Cette thèse vise à améliorer ces systèmes en abordant deux défis majeurs : améliorer l’explicabilité des systèmes de recommandation et optimiser le re-rank dans les systèmes IR à l’aide de modèles de langage avancés (Large Language Models, LLMs). La première partie de cette thèse met l’accent sur l’importance de l’explicabilité dans les systèmes de recommandation pour renforcer la confiance des utilisateurs, leur satisfaction et leur prise de décision. Elle présente un système de recommandation explicable innovant développé pour un partenaire aérien, qui génère non seulement des recommandations personnalisées de destinations, mais fournit également des explications claires basées sur des caractéristiques pour chaque suggestion. En mettant en avant la transparence et l’explicabilité, ce système permet aux utilisateurs de comprendre les raisons derrière ses recommandations, comblant ainsi le fossé entre des algorithmes complexes et la compréhension des utilisateurs. La deuxième partie de cette thèse explore les problèmes de classement dans les systèmes IR, où l’efficacité des résultats classés affecte directement la satisfaction des utilisateurs et les performances du système. Les LLMs ont suscité un grand intérêt en raison de leurs puissantes capacités de compréhension et de génération de texte. Des études récentes ont exploité les LLMs pour le re-classement de passages en mode zéro-shot dans les systèmes IR, utilisant diverses approches, notamment les méthodes pointwise et listwise. Dans l’approche pointwise, le LLM génère un score de pertinence pour chaque passage par rapport à la requête, indépendamment des autres passages. En revanche, dans l’approche listwise, le LLM génère une liste classée des étiquettes de documents en fonction de leur pertinence par rapport à la requête. Cette thèse propose une étape préliminaire de filtrage basée sur un LLM en mode pointwise pour identifier les passages pertinents et non pertinents avant le processus de re-classement, dans le but d’améliorer les performances des re-rankers listwise dans les systèmes IR. Cette approche repose sur une technique avancée de conception de prompts appelée Plan-and-Solve. De plus, cette thèse conduit une étude empirique pour examiner le rôle de la cohérence interne (self-consistency) et de l’élicitation de confiance dans l’amélioration des performances des rerankers pointwise basés sur les LLMs, en affinant la pertinence et la précision des résultats classés. Nous constatons qu’en utilisant un petit nombre de scores de pertinence générés par des humains, associés aux scores de pertinence générés par les LLMs, il est possible d’éliminer efficacement les passages non pertinents avant le re-classement. Nos expériences montrent également que ce filtrage préliminaire basé sur un LLM en mode pointwise permet au LLM d’améliorer ses performances dans les tâches de re-classement en mode zéro-shot. En outre, nos résultats révèlent que l’élicitation de confiance peut améliorer les performances des rerankers pointwise basés sur les LLMs en mode zéro-shot. Notamment, la fréquence brute des réponses d’un LLM dans le re-classement pointwise est moins utile que les scores de confiance obtenus à partir de ces réponses.

Abstract

Access to information is a fundamental human need. In today’s data-driven world, the exponential growth of information has created a critical demand for systems that can efficiently retrieve relevant data. Information Retrieval (IR) systems and Recommender Systems have emerged as key solutions, enabling users to access relevant content and receive personalized recommendations. This thesis aims to improve these systems by addressing two major challenges: enhancing explainability in recommender systems and improving re-ranking in IR systems using Large Language Models (LLMs). The first part of this thesis focuses on the importance of explainability in recommender systems to improve user trust, satisfaction, and decision-making. It introduces a novel explainable recommender system developed for an airline partner, which not only generates personalized destination recommendations but also provides clear, feature-based explanations for each suggestion. By prioritizing transparency and explainability, the system allows users to understand the rationale behind its recommendations, thereby bridging the gap between complex algorithms and user comprehension. The second part of this thesis explores ranking problems in IR systems, where the effectiveness of the ranked results directly affects user satisfaction and system performance. LLMs have gained significant attention for their strong text understanding and generation capabilities. Recent studies have leveraged LLMs for zero-shot passage re-ranking in IR systems, employing various methods, including pointwise and listwise approaches. In the pointwise approach, the LLM generates a relevance score for each passage concerning the query, regardless of the other passages. In contrast, in the listwise approach, the LLM generates a ranked list of document labels based on their relevance to the query. This thesis proposes an LLM-based pointwise pre-filtering step to identify relevant and non-relevant passages before the re-ranking process, aiming to enhance the performance of listwise re-rankers in IR systems. This approach is based on the advanced prompt engineering technique known as Plan-and-Solve. Additionally, this thesis conducts an empirical study to investigate the role of self-consistency and confidence elicitation in improving the performance of LLM-based pointwise re-rankers by refining the relevance and accuracy of ranked results. We find that by using a small number of human-generated relevance scores, coupled with LLM relevance scoring, it is effectively possible to filter out irrelevant passages before reranking. Our experiments also show that this LLM-based pointwise pre-filtering then allows the LLM to perform better at zero-shot re-ranking tasks. In addition, our results reveal that confidence elicitation can enhance the performance of LLM-based pointwise zero-shot passage re-rankers. Notably, the raw frequency of answers from an LLM in pointwise re-ranking is less useful than the confidence scores elicited from them.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Maxime Lamothe
URL de PolyPublie: https://publications.polymtl.ca/61634/
Université/École: Polytechnique Montréal
Date du dépôt: 18 juin 2025 10:46
Dernière modification: 30 juil. 2025 22:01
Citer en APA 7: Nouriinanloo, B. (2024). Improving Information Retrieval and Recommender Systems with Contextual Data and Re-Ranking [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/61634/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document