Mémoire de maîtrise (2022)
Document en libre accès dans PolyPublie |
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (9MB) |
Résumé
Les bases de connaissances sont des graphes de stockage de données dans lesquels les nœuds sont des concepts ou des objets, et les arêtes représentent les relations entre eux. Afin de tirer des informations de ces bases de connaissances, on utilise le langage de requête SPARQL, dont l'apprentissage représente un certain défi. Or, en considérant ce langage de requête comme une langue à part entière au même titre que l'anglais ou l'allemand, on peut appliquer les techniques de traduction automatique au problème de transformer une question en langue naturelle en une requête SPARQL équivalente. Cela permet aux utilisateurs d'obtenir des informations des bases de connaissances en utilisant simplement la langue naturelle. Les modèles de traduction automatique développés pour résoudre ce problème sont en ce moment très performants pour générer des requêtes syntaxiquement correctes, mais présentent d'importantes limitations lorsqu'il s'agit d'utiliser les bons éléments de la base de connaissances (sujet, propriété, objet). Ils génèrent alors des requêtes qui ne portent pas sur les mêmes éléments que la question, et donc qui retournent les mauvaises réponses. Cette lacune passe inaperçue, car le score BLEU, qui est la principale métrique utilisée pour évaluer les modèles, n'est qu'un indicateur de la similarité entre la traduction générée automatiquement et la traduction attendue. Autrement dit, une requête qui est bien formulée retourne un score BLEU relativement élevé, même si elle ne porte pas sur les bons éléments de la base de connaissances.
Abstract
Knowledge bases are data storage graphs in which the nodes are concepts or objects, and the edges represent the relationships between them. In order to extract information from these knowledge bases, the SPARQL query language is used, which can be challenging to learn. However, by considering this query language as a language in its own right, just like English or German, we can apply machine translation techniques to the problem of transforming a natural language question into an equivalent SPARQL query. This allows users to obtain information from knowledge bases simply by using natural language. Machine translation models developed to solve this problem are currently very good at generating syntactically correct queries, but have significant limitations when it comes to using the correct knowledge base elements (subject, property, object). Thus, they generate queries that do not use the same elements as the question, and therefore return the wrong answers. This shortcoming often goes unnoticed, because the BLEU-score, which is the main metric used to evaluate the models, is only an indicator of the similarity between the automatically generated translation and the reference translation. In other words, a query that is well formulated returns a relatively high BLEU-score, even if it is not about the right elements of the knowledge base.
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Amal Zouaq |
URL de PolyPublie: | https://publications.polymtl.ca/10533/ |
Université/École: | Polytechnique Montréal |
Date du dépôt: | 06 févr. 2023 14:47 |
Dernière modification: | 27 sept. 2024 16:05 |
Citer en APA 7: | Hirigoyen, R. (2022). Génération automatique de requêtes SPARQL à partir de questions en langue naturelle [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10533/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements