<  Retour au portail Polytechnique Montréal

Annotations sémantiques et analyse de surface pour l'extraction de graphes d'abstraction de débats politiques

Edoukou Philippe Armel N'Techobo

Mémoire de maîtrise (2016)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)
Afficher le résumé
Cacher le résumé

Résumé

De nombreux gouvernements ont pris des initiatives pour ouvrir et partager leurs données telles que les débats parlementaires. Ce type de corpus est généralement très grand, couvre plusieurs thématiques et n'est pas toujours organisé de manière linéaire. Dans ce travail de recherche, nous proposons une méthode pour extraire automatiquement des représentations abstraites basées sur des graphes qui représentent les sujets discutés durant les débats politiques et les relations qui existent entre ces sujets. À cette fin, nous exploitons des annotateurs sémantiques basés sur le Linked Data pour l'extraction des entités concernées. De cette façon, nous pouvons représenter les sujets discutés avec des concepts dont la sémantique a déjà été définie dans le Linked Data de manière structurée, à la différence des méthodes existantes qui utilisent de simples mots clés. Aussi, nous extrayons des relations entre les concepts provenant du Linked Data et des relations de haut niveau entre ces entités provenant du corpus de débats. Ces dernières sont extraites avec des patrons d'analyse morphosyntaxiques, définis manuellement, et désambiguïsées en utilisant VerbNet. Avec les concepts et relations extraits, nous construisons un graphe abstrait qui représente le débat. Ce graphe est ensuite réduit en fonction de plusieurs paramètres pour ne conserver que les entités et relations les plus importantes. Le graphe généré, en plus de permettre la recherche sémantique, pourrait être réutilisé par d'autres systèmes pour la génération de résumé abstractif ou effectuer des systèmes de réponses à des questions (question answering systems).

Abstract

Many governments have taken initiatives to open up and share their data such as parliamentary debates. This type of corpus is generally very large, covers several topics and is not always organized in a linear manner. In this research, we propose a method to automatically extract abstract representations based on graphs that represent the topics discussed during political debates and the relationships between these topics. To this end, we use semantic annotators based on Linked Data for extracting topics. In this way, we can represent the discussed topics with concepts whose semantics has already been defined on the Linked Data cloud in a structured way, unlike existing methods which generally rely on simple keywords. Also, we extract relations between the concepts based on the information available on the Linked Data Cloud and provide high level relations between these entities from the corpus of debates. These relations are extracted with morpho-syntactic patterns defined manually and disambiguated using VerbNet. With the concepts and relationships extracted, we construct an abstract graph representing the debates. This graph is successively reduced based on several parameters to keep only the most important entities and relationships. The generated graph, in addition to enabling semantic search, could be reused by other systems for the generation of abstractive summarization or question answering.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Michel Gagnon et Amal Zouaq
URL de PolyPublie: https://publications.polymtl.ca/2180/
Université/École: École Polytechnique de Montréal
Date du dépôt: 27 oct. 2016 10:51
Dernière modification: 08 juin 2023 06:15
Citer en APA 7: N'Techobo, E. P. A. (2016). Annotations sémantiques et analyse de surface pour l'extraction de graphes d'abstraction de débats politiques [Mémoire de maîtrise, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/2180/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document