Master's thesis (2018)
Open Access document in PolyPublie |
|
Open Access to the full text of this document Terms of Use: All rights reserved Download (959kB) |
Abstract
A lot of information on the Web and in databases is in raw texts. If the raw text is easily understandable for humans, it is more difficult to process it with machines. This is why structuring data is a big challenge, that will allow making data more accessible and exploitable. There are numerous information extraction methods from raw texts. The most popular are based on machine learning and word representation to take into account some information like semantic, word distribution, etc. In this project, we will work with data from the Repertoire of Cultural Heritage of Quebec. This repertoire brings together real estates, person, movable heritage and intangible cultural heritage of Quebec. The current classification does no longer meet the needs of the Ministry of Culture and Communication of Quebec. This is why, to help to redesign the knowledge base, we propose an application to extract relations between real estates and persons or group of persons. Each real estate has a historical synthesis which describes its history, and cite persons who played some role in its history. Thus, our goal is to process these syntheses to extract these relations. Ultimately, this application should help to settle the future knowledge base. Input data of our problem are, for each real estate, a historical synthesis and a list of persons who are in relation with this real estate. Our research question is to determine if a machine learning-based approach is enough to extract relations from the syntheses. For each pair hreal estate, personi, we will first isolate the context around each mention of the person in the historical synthesis of the real estate. We found out, by browsing the data, that information describing relation is very often near the mention of the person. We define the context either by a fixed number of words surrounding the mention, either by the sentence containing the mention. Then we use a word representation model to transform context into a vector. Thus, we have a vector for each pair hreal estate, personi. This vector will then be given to a supervised machine learning algorithm (support vector machine or multilayer perceptron) to predict the relation it represents. These algorithms are trained on data extracted from the Repertoire of Cultural Heritage of Quebec, and are tested on a manually annotated corpus (extracted from the repertoire and annotated by us).
Résumé
Une grande partie de l'information présente sur le web et dans les bases de données l'est sous forme de textes. Ces données sont difficilement exploitables de façon automatique et il est impossible de procéder à des requêtes particulières sur celles-ci, puisqu'elles ne sont pas décrites par des métadonnées. Structurer ces données est un enjeu de taille qui permettra de les rendre plus accessibles et exploitables. De nombreuses méthodes d'extraction d'informations à partir de textes bruts ont vu le jour. Les plus répandues reposent sur des algorithmes d'apprentissage automatique et font appel à différentes techniques pour représenter les mots. Ces techniques sont indispensables et permettent de mettre en valeur certaines informations, comme la nature des mots, leur fonction, leur répartition dans le corpus, ou encore leur sémantique. Dans le cadre de ce projet, nous allons travailler avec les données du Répertoire du Patrimoine Culturel du Québec. Ce répertoire inventorie l'ensemble du patrimoine immobilier, mobilier et immatériel du Québec.Toutefois, la classification actuelle présente des problèmes majeurs et ne répond plus aux besoins du Ministère de la Culture et des Communications du Québec (MCC). C'est pourquoi, en vue d'une refonte de la base de connaissances, le MCC nous a proposé de nous intéresser aux relations pouvant exister entre des biens immobiliers et des personnes (physiques ou morales). Ces relations sont décrites dans les synthèses historiques des biens immobiliers ; des textes décrivant chacun l'histoire d'un bien immobilier. Il existe déjà des relations modélisées dans le répertoire, mais dans l'optique d'une refonte de la classification, nous proposons une application capable de peupler de façon automatique la future base de connaissances. Les données d'entrée de notre problème sont donc, pour chaque bien immobilier, une synthèse historique relatant l'histoire du bien immobilier et une liste de personnes qui ont été en relation avec ledit bien. La question de recherche est de savoir si une approche basée sur l'apprentissage machine est suffisante pour extraire les relations à partir de ces synthèses.
Department: | Department of Computer Engineering and Software Engineering |
---|---|
Program: | Génie informatique |
Academic/Research Directors: | Michel Gagnon and Amal Zouaq |
PolyPublie URL: | https://publications.polymtl.ca/3301/ |
Institution: | École Polytechnique de Montréal |
Date Deposited: | 19 Nov 2018 11:21 |
Last Modified: | 27 Sep 2024 11:13 |
Cite in APA 7: | Ferry, F. (2018). Identification de relations entre personnes et biens immobiliers à partir de données textuelles [Master's thesis, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/3301/ |
---|---|
Statistics
Total downloads
Downloads per month in the last year
Origin of downloads