Master's thesis (2016)
Open Access document in PolyPublie |
|
Open Access to the full text of this document Terms of Use: All rights reserved Download (1MB) |
Abstract
Relation extraction is becoming a very important challenge for enhanced semantic search. In fact, while traditional information retrieval is mainly focused on keywords, relation extraction opens a whole range of possibilities by identifying the links between concepts and entities. Unstructured data can be transformed into structured data by using effective relation extraction to populate a knowledge base (ex: Google Knowlegde Graph and DBpedia). Slot filling, which mainly consists in the population of a knowledge base, has been a very active task in recent years and has been subject to several evaluation campaigns that assess the ability of automatically extracting previously known relations from corpora. Despite some progress, the results of these competitions remain limited. In this thesis, we focus on the English slot filling track within TAC KBP 2013 evaluation campaign. This track targets the extraction of 41 pre-identified Wikipedia infobox relations (e.g. title, date of birth, countries of residence, etc.) related to specific named entities (persons and organizations). A named entity and a relation are submitted to a system (relation extractor), which must automatically find, within a corpus containing over 2 million documents, every other entity that is linked to the query entity with this particular relation, and must return a textual segment that justifies this result. This thesis presents a machine learning filter whose main objective is to enhance the precision of relation extractors while minimizing the impact on recall. Our approach consists in the filtering of relation extractors' output using a binary classifier. Our filter is appended to the end of the relation extractor's pipeline, thus allowing the filter to be tested and operated on any system. Another objective of this research is the identification of the most important features for the filtering step. Our classifier is based on a wide array of features including statistical, lexical, morphosyntactic, syntactic and semantic features. We also present a method for extracting the most frequent patterns (ex: part-of-speech, syntactic dependencies) between the query and the answer within the justification sentence from which we create boolean features indicating the presence of such patterns. The features used for training our classifiers are mostly generic and could be utilized to classify any pre-defined relation. We experimented the classifier on 14 systems participating in the English slot filling track of TAC KBP 2013 campaign. The filter allowed an increase in precision for every tested system. Our results also show that the classifier is able to improve the precision of the best system by more than 20% (in percentage points) and improve the F1-score for 20 relations.
Résumé
L'extraction de relations contribue à l'amélioration de la recherche sémantique, recherche basée sur la compréhension du sens des termes de recherche. Puisque la recherche d'information est principalement axée sur des mots-clés, l'extraction de relations offre un éventail de possibilités en identifiant les liens entre les entités. L'extraction de relations permet entre autres de transformer de l'information non structurée en information structurée. Les bases de connaissances,telles que Google Knowledge Graph et DBpedia, permettent un accès plus précis et plus direct à l'information. Le slot filling, qui consiste à peupler une base de connaissances à partir de textes, a été une tâche très active depuis quelques années faisant l'objet de plusieurs campagnes évaluant la capacité d'extraire automatiquement des relations prédéfinies d'un corpus de documents. Malgré quelques progrès, les résultats de ces compétitions demeurent modestes. Nous nous concentrons sur la tâche de slot filling dans le cadre de la campagne d'évaluation TAC KBP 2013. Cette tâche vise l'extraction de 41 relations prédéfinies basées sur les infobox de Wikipédia (par exemple: title, date of birth, countries of residence, etc.)liées à des entités nommées spécifiques (personnes et organisations). Une entité nommée (l'entité requête) et une relation sont soumises à un système (extracteur de relations) qui doit automatiquement trouver, parmi un corpus de plus de deux millions de documents, toute entité liée à l'entité requête par la relation donnée. Le système doit également retourner un segment textuel justifiant cette relation. Ce mémoire présente un filtre basé sur l'apprentissage statistique dont l'objectif principal est d'améliorer la précision d'extracteurs de relations tout en minimisant l'impact sur le rappel. Notre approche consiste à filtrer la sortie des extracteurs de relations en utilisant un classifieur. Notre filtre est annexé à la sortie de l'extracteur de relations, pouvant ainsi être facilement testé sur n'importe quel système. Notre classifieur est basé sur un large éventail de caractéristiques (features), incluant des caractéristiques statistiques, lexicales, morphosyntaxiques, syntaxiques et sémantiques extraites en majorité des phrases justificatives soumises par les systèmes. Nous proposons également une méthode efficace permettant d'extraire les patrons les plus fréquents (ex.: catégories orphosyntaxiques, dépendances syntaxiques) afin d'en dériver des caractéristiques booléennes utiles pour notre tâche de filtrage. Les caractéristiques utilisées pour l'entraînement des classifieurs sont soit génériques. Ainsi, notre méthode peut être utilisée pour la classification de toute relation prédéfinie. Nous avons testé le filtre sur 14 systèmes ayant participé à la tâche de slot filling. Le filtre permet d'améliorer la précision pour chacun de ces systèmes. Nos résultats démontrent également que le filtre permet d'améliorer la précision du meilleur système de plus de 20% (points de pourcentage) et d'améliorer le F-score pour 20 relations.
Department: | Department of Computer Engineering and Software Engineering |
---|---|
Program: | Génie informatique |
Academic/Research Directors: | Michel Gagnon, Amal Zouaq and Ludovic Jean-Louis |
PolyPublie URL: | https://publications.polymtl.ca/2115/ |
Institution: | École Polytechnique de Montréal |
Date Deposited: | 13 Jul 2016 10:16 |
Last Modified: | 30 Sep 2024 16:47 |
Cite in APA 7: | Lange Di Cesare, K. (2016). Amélioration de la précision de systèmes d'extraction de relations en utilisant un filtre générique basé sur l'apprentissage statistique [Master's thesis, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/2115/ |
---|---|
Statistics
Total downloads
Downloads per month in the last year
Origin of downloads