Edoukou Philippe Armel N'Techobo
Mémoire de maîtrise (2016)
Document en libre accès dans PolyPublie |
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (1MB) |
Résumé
De nombreux gouvernements ont pris des initiatives pour ouvrir et partager leurs données telles que les débats parlementaires. Ce type de corpus est généralement très grand, couvre plusieurs thématiques et n'est pas toujours organisé de manière linéaire. Dans ce travail de recherche, nous proposons une méthode pour extraire automatiquement des représentations abstraites basées sur des graphes qui représentent les sujets discutés durant les débats politiques et les relations qui existent entre ces sujets. À cette fin, nous exploitons des annotateurs sémantiques basés sur le Linked Data pour l'extraction des entités concernées. De cette façon, nous pouvons représenter les sujets discutés avec des concepts dont la sémantique a déjà été définie dans le Linked Data de manière structurée, à la différence des méthodes existantes qui utilisent de simples mots clés. Aussi, nous extrayons des relations entre les concepts provenant du Linked Data et des relations de haut niveau entre ces entités provenant du corpus de débats. Ces dernières sont extraites avec des patrons d'analyse morphosyntaxiques, définis manuellement, et désambiguïsées en utilisant VerbNet. Avec les concepts et relations extraits, nous construisons un graphe abstrait qui représente le débat. Ce graphe est ensuite réduit en fonction de plusieurs paramètres pour ne conserver que les entités et relations les plus importantes. Le graphe généré, en plus de permettre la recherche sémantique, pourrait être réutilisé par d'autres systèmes pour la génération de résumé abstractif ou effectuer des systèmes de réponses à des questions (question answering systems).
Abstract
Many governments have taken initiatives to open up and share their data such as parliamentary debates. This type of corpus is generally very large, covers several topics and is not always organized in a linear manner. In this research, we propose a method to automatically extract abstract representations based on graphs that represent the topics discussed during political debates and the relationships between these topics. To this end, we use semantic annotators based on Linked Data for extracting topics. In this way, we can represent the discussed topics with concepts whose semantics has already been defined on the Linked Data cloud in a structured way, unlike existing methods which generally rely on simple keywords. Also, we extract relations between the concepts based on the information available on the Linked Data Cloud and provide high level relations between these entities from the corpus of debates. These relations are extracted with morpho-syntactic patterns defined manually and disambiguated using VerbNet. With the concepts and relationships extracted, we construct an abstract graph representing the debates. This graph is successively reduced based on several parameters to keep only the most important entities and relationships. The generated graph, in addition to enabling semantic search, could be reused by other systems for the generation of abstractive summarization or question answering.
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Michel Gagnon et Amal Zouaq |
URL de PolyPublie: | https://publications.polymtl.ca/2180/ |
Université/École: | École Polytechnique de Montréal |
Date du dépôt: | 27 oct. 2016 10:51 |
Dernière modification: | 26 sept. 2024 13:31 |
Citer en APA 7: | N'Techobo, E. P. A. (2016). Annotations sémantiques et analyse de surface pour l'extraction de graphes d'abstraction de débats politiques [Mémoire de maîtrise, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/2180/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements