<  Back to the Polytechnique Montréal portal

Génération automatique de requêtes SPARQL à partir de questions en langue naturelle

Rose Hirigoyen

Master's thesis (2022)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (9MB)
Show abstract
Hide abstract

Abstract

Knowledge bases are data storage graphs in which the nodes are concepts or objects, and the edges represent the relationships between them. In order to extract information from these knowledge bases, the SPARQL query language is used, which can be challenging to learn. However, by considering this query language as a language in its own right, just like English or German, we can apply machine translation techniques to the problem of transforming a natural language question into an equivalent SPARQL query. This allows users to obtain information from knowledge bases simply by using natural language. Machine translation models developed to solve this problem are currently very good at generating syntactically correct queries, but have significant limitations when it comes to using the correct knowledge base elements (subject, property, object). Thus, they generate queries that do not use the same elements as the question, and therefore return the wrong answers. This shortcoming often goes unnoticed, because the BLEU-score, which is the main metric used to evaluate the models, is only an indicator of the similarity between the automatically generated translation and the reference translation. In other words, a query that is well formulated returns a relatively high BLEU-score, even if it is not about the right elements of the knowledge base.

Résumé

Les bases de connaissances sont des graphes de stockage de données dans lesquels les nœuds sont des concepts ou des objets, et les arêtes représentent les relations entre eux. Afin de tirer des informations de ces bases de connaissances, on utilise le langage de requête SPARQL, dont l'apprentissage représente un certain défi. Or, en considérant ce langage de requête comme une langue à part entière au même titre que l'anglais ou l'allemand, on peut appliquer les techniques de traduction automatique au problème de transformer une question en langue naturelle en une requête SPARQL équivalente. Cela permet aux utilisateurs d'obtenir des informations des bases de connaissances en utilisant simplement la langue naturelle. Les modèles de traduction automatique développés pour résoudre ce problème sont en ce moment très performants pour générer des requêtes syntaxiquement correctes, mais présentent d'importantes limitations lorsqu'il s'agit d'utiliser les bons éléments de la base de connaissances (sujet, propriété, objet). Ils génèrent alors des requêtes qui ne portent pas sur les mêmes éléments que la question, et donc qui retournent les mauvaises réponses. Cette lacune passe inaperçue, car le score BLEU, qui est la principale métrique utilisée pour évaluer les modèles, n'est qu'un indicateur de la similarité entre la traduction générée automatiquement et la traduction attendue. Autrement dit, une requête qui est bien formulée retourne un score BLEU relativement élevé, même si elle ne porte pas sur les bons éléments de la base de connaissances.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Amal Zouaq
PolyPublie URL: https://publications.polymtl.ca/10533/
Institution: Polytechnique Montréal
Date Deposited: 06 Feb 2023 14:47
Last Modified: 07 Feb 2024 05:23
Cite in APA 7: Hirigoyen, R. (2022). Génération automatique de requêtes SPARQL à partir de questions en langue naturelle [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10533/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item