<  Back to the Polytechnique Montréal portal

Annotations sémantiques et analyse de surface pour l'extraction de graphes d'abstraction de débats politiques

Edoukou Philippe Armel N'techobo

Masters thesis (2016)

[img]
Preview
Download (1MB)
Cite this document: N'techobo, E. P. A. (2016). Annotations sémantiques et analyse de surface pour l'extraction de graphes d'abstraction de débats politiques (Masters thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/2180/
Show abstract Hide abstract

Abstract

RÉSUMÉ De nombreux gouvernements ont pris des initiatives pour ouvrir et partager leurs données telles que les débats parlementaires. Ce type de corpus est généralement très grand, couvre plusieurs thématiques et n'est pas toujours organisé de manière linéaire. Dans ce travail de recherche, nous proposons une méthode pour extraire automatiquement des représentations abstraites basées sur des graphes qui représentent les sujets discutés durant les débats politiques et les relations qui existent entre ces sujets. À cette fin, nous exploitons des annotateurs sémantiques basés sur le Linked Data pour l'extraction des entités concernées. De cette façon, nous pouvons représenter les sujets discutés avec des concepts dont la sémantique a déjà été définie dans le Linked Data de manière structurée, à la différence des méthodes existantes qui utilisent de simples mots clés. Aussi, nous extrayons des relations entre les concepts provenant du Linked Data et des relations de haut niveau entre ces entités provenant du corpus de débats. Ces dernières sont extraites avec des patrons d’analyse morphosyntaxiques, définis manuellement, et désambiguïsées en utilisant VerbNet. Avec les concepts et relations extraits, nous construisons un graphe abstrait qui représente le débat. Ce graphe est ensuite réduit en fonction de plusieurs paramètres pour ne conserver que les entités et relations les plus importantes. Le graphe généré, en plus de permettre la recherche sémantique, pourrait être réutilisé par d’autres systèmes pour la génération de résumé abstractif ou effectuer des systèmes de réponses à des questions (question answering systems).----------ABSTRACT Many governments have taken initiatives to open up and share their data such as parliamentary debates. This type of corpus is generally very large, covers several topics and is not always organized in a linear manner. In this research, we propose a method to automatically extract abstract representations based on graphs that represent the topics discussed during political debates and the relationships between these topics. To this end, we use semantic annotators based on Linked Data for extracting topics. In this way, we can represent the discussed topics with concepts whose semantics has already been defined on the Linked Data cloud in a structured way, unlike existing methods which generally rely on simple keywords. Also, we extract relations between the concepts based on the information available on the Linked Data Cloud and provide high level relations between these entities from the corpus of debates. These relations are extracted with morpho-syntactic patterns defined manually and disambiguated using VerbNet. With the concepts and relationships extracted, we construct an abstract graph representing the debates. This graph is successively reduced based on several parameters to keep only the most important entities and relationships. The generated graph, in addition to enabling semantic search, could be reused by other systems for the generation of abstractive summarization or question answering.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Academic/Research Directors: Michel Gagnon and Amal Zouaq
Date Deposited: 27 Oct 2016 10:51
Last Modified: 27 Jun 2019 16:48
PolyPublie URL: https://publications.polymtl.ca/2180/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only