Comparaison et étude de la généralisation de modèles neuronaux pré-entrainés pour la génération de requêtes SPARQL

Samuel Reyd

Mémoire de maîtrise (2023)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

Les bases de connaissances sont une méthode prometteuse pour stocker et organiser des données. Cependant, il est difficile d’accéder à de telles bases de données pour les utilisateurs qui ne sont pas des experts dans le domaine, car les requêtes doivent être exprimées dans le langage de requête SPARQL, qui est difficile à maîtriser pour les personnes en dehors du domaine du Web sémantique. Cette difficulté peut être surmontée par la conception de modèles efficaces de traduction de questions en langage naturel vers des requêtes SPARQL. Les approches modernes pour résoudre cette tâche impliquent des architectures de traduction neuronale qui considèrent SPARQL comme une autre langue naturelle. La tâche a connu des progrès récents qui ont été encouragés par le développement d’architectures neuronales de plus en plus puissantes ainsi que par la conception de mécanismes spécifiques qui s’attaquent aux principales difficultés de la tâche. Ce mémoire propose une comparaison complète des approches récentes de traduction neuronale sur la base de l’annotation de questions, des ensembles de données, des architectures de modèles et de l’utilisation du mécanisme de copie. Il présente la première tentative de combiner la force du mécanisme de copie et l’utilisation de modèles pré-entraînés. Il aborde également la question de la généralisation de ces approches en définissant les difficultés clés liées aux jeux de données de référence et en concevant un algorithme pour re-diviser les ensembles de données afin d’évaluer la façon dont les modèles traitent ces difficultés. Notamment, nous évaluons la capacité des modèles à gérer les questions contenant des ressources (URI) inconnues et les questions ayant une structure non vue en entrainement.

Abstract

Knowledge bases are a promising way of storing and organizing data. However, accessing such knowledge bases for non-expert users is not trivial since queries must be expressed in the SPARQL language, which is hard to master for people outside the field of the Semantic Web. One way to deal with this difficulty would be to design efficient models to automatically translate Natural Language questions into SPARQL queries. Modern approaches to solving this task involve Neural Machine Translations architectures that consider SPARQL as another language. Recent progress has been driven by the development of powerful neural architectures as well as the design of specific mechanisms that address the main difficulties of the task. This Master’s thesis offers a comprehensive comparison of recent approaches on neural machine translation, by evaluating various question annotation, datasets, model architectures, and the usage of the copy mechanism. It also features the first approach to combine the strength of the copy mechanism and pre-trained models. It also studies the issue of generalization of these approaches by defining key difficulties that models might encounter in real word settings and designing an algorithm to re-split datasets in order to evaluate how models deal with these difficulties. We notably evaluate how these models manage questions that contain unknown resources (URI) and questions’ structures unseen in training.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Amal Zouaq
URL de PolyPublie:	https://publications.polymtl.ca/54902/
Université/École:	Polytechnique Montréal
Date du dépôt:	04 mars 2024 13:19
Dernière modification:	29 mars 2025 16:34

Citer en APA 7:	Reyd, S. (2023). Comparaison et étude de la généralisation de modèles neuronaux pré-entrainés pour la génération de requêtes SPARQL [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/54902/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document