Génération automatique de requêtes SPARQL à partir de questions en langue naturelle

Rose Hirigoyen

Mémoire de maîtrise (2022)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (9MB)

Afficher le résumé

Cacher le résumé

Résumé

Les bases de connaissances sont des graphes de stockage de données dans lesquels les nœuds sont des concepts ou des objets, et les arêtes représentent les relations entre eux. Afin de tirer des informations de ces bases de connaissances, on utilise le langage de requête SPARQL, dont l'apprentissage représente un certain défi. Or, en considérant ce langage de requête comme une langue à part entière au même titre que l'anglais ou l'allemand, on peut appliquer les techniques de traduction automatique au problème de transformer une question en langue naturelle en une requête SPARQL équivalente. Cela permet aux utilisateurs d'obtenir des informations des bases de connaissances en utilisant simplement la langue naturelle. Les modèles de traduction automatique développés pour résoudre ce problème sont en ce moment très performants pour générer des requêtes syntaxiquement correctes, mais présentent d'importantes limitations lorsqu'il s'agit d'utiliser les bons éléments de la base de connaissances (sujet, propriété, objet). Ils génèrent alors des requêtes qui ne portent pas sur les mêmes éléments que la question, et donc qui retournent les mauvaises réponses. Cette lacune passe inaperçue, car le score BLEU, qui est la principale métrique utilisée pour évaluer les modèles, n'est qu'un indicateur de la similarité entre la traduction générée automatiquement et la traduction attendue. Autrement dit, une requête qui est bien formulée retourne un score BLEU relativement élevé, même si elle ne porte pas sur les bons éléments de la base de connaissances.

Abstract

Knowledge bases are data storage graphs in which the nodes are concepts or objects, and the edges represent the relationships between them. In order to extract information from these knowledge bases, the SPARQL query language is used, which can be challenging to learn. However, by considering this query language as a language in its own right, just like English or German, we can apply machine translation techniques to the problem of transforming a natural language question into an equivalent SPARQL query. This allows users to obtain information from knowledge bases simply by using natural language. Machine translation models developed to solve this problem are currently very good at generating syntactically correct queries, but have significant limitations when it comes to using the correct knowledge base elements (subject, property, object). Thus, they generate queries that do not use the same elements as the question, and therefore return the wrong answers. This shortcoming often goes unnoticed, because the BLEU-score, which is the main metric used to evaluate the models, is only an indicator of the similarity between the automatically generated translation and the reference translation. In other words, a query that is well formulated returns a relatively high BLEU-score, even if it is not about the right elements of the knowledge base.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Amal Zouaq
URL de PolyPublie:	https://publications.polymtl.ca/10533/
Université/École:	Polytechnique Montréal
Date du dépôt:	06 févr. 2023 14:47
Dernière modification:	27 sept. 2024 16:05

Citer en APA 7:	Hirigoyen, R. (2022). Génération automatique de requêtes SPARQL à partir de questions en langue naturelle [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10533/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document