<  Back to the Polytechnique Montréal portal

Identification de relations entre personnes et biens immobiliers à partir de données textuelles

François Ferry

Masters thesis (2018)

[img]
Preview
Download (959kB)
Cite this document: Ferry, F. (2018). Identification de relations entre personnes et biens immobiliers à partir de données textuelles (Masters thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/3301/
Show abstract Hide abstract

Abstract

Une grande partie de l’information présente sur le web et dans les bases de données l’est sous forme de textes. Ces données sont difficilement exploitables de façon automatique et il est impossible de procéder à des requêtes particulières sur celles-ci, puisqu’elles ne sont pas décrites par des métadonnées. Structurer ces données est un enjeu de taille qui permettra de les rendre plus accessibles et exploitables. De nombreuses méthodes d’extraction d’informations à partir de textes bruts ont vu le jour. Les plus répandues reposent sur des algorithmes d’apprentissage automatique et font appel à différentes techniques pour représenter les mots. Ces techniques sont indispensables et permettent de mettre en valeur certaines informations, comme la nature des mots, leur fonction, leur répartition dans le corpus, ou encore leur sémantique. Dans le cadre de ce projet, nous allons travailler avec les données du Répertoire du Patrimoine Culturel du Québec. Ce répertoire inventorie l’ensemble du patrimoine immobilier, mobilier et immatériel du Québec.Toutefois, la classification actuelle présente des problèmes majeurs et ne répond plus aux besoins du Ministère de la Culture et des Communications du Québec (MCC). C’est pourquoi, en vue d’une refonte de la base de connaissances, le MCC nous a proposé de nous intéresser aux relations pouvant exister entre des biens immobiliers et des personnes (physiques ou morales). Ces relations sont décrites dans les synthèses historiques des biens immobiliers ; des textes décrivant chacun l’histoire d’un bien immobilier. Il existe déjà des relations modélisées dans le répertoire, mais dans l’optique d’une refonte de la classification, nous proposons une application capable de peupler de façon automatique la future base de connaissances. Les données d’entrée de notre problème sont donc, pour chaque bien immobilier, une synthèse historique relatant l’histoire du bien immobilier et une liste de personnes qui ont été en relation avec ledit bien. La question de recherche est de savoir si une approche basée sur l’apprentissage machine est suffisante pour extraire les relations à partir de ces synthèses.----------ABSTRACT: A lot of information on the Web and in databases is in raw texts. If the raw text is easily understandable for humans, it is more difficult to process it with machines. This is why structuring data is a big challenge, that will allow making data more accessible and exploitable. There are numerous information extraction methods from raw texts. The most popular are based on machine learning and word representation to take into account some information like semantic, word distribution, etc. In this project, we will work with data from the Repertoire of Cultural Heritage of Quebec. This repertoire brings together real estates, person, movable heritage and intangible cultural heritage of Quebec. The current classification does no longer meet the needs of the Ministry of Culture and Communication of Quebec. This is why, to help to redesign the knowledge base, we propose an application to extract relations between real estates and persons or group of persons. Each real estate has a historical synthesis which describes its history, and cite persons who played some role in its history. Thus, our goal is to process these syntheses to extract these relations. Ultimately, this application should help to settle the future knowledge base. Input data of our problem are, for each real estate, a historical synthesis and a list of persons who are in relation with this real estate. Our research question is to determine if a machine learning-based approach is enough to extract relations from the syntheses. For each pair hreal estate, personi, we will first isolate the context around each mention of the person in the historical synthesis of the real estate. We found out, by browsing the data, that information describing relation is very often near the mention of the person. We define the context either by a fixed number of words surrounding the mention, either by the sentence containing the mention. Then we use a word representation model to transform context into a vector. Thus, we have a vector for each pair hreal estate, personi. This vector will then be given to a supervised machine learning algorithm (support vector machine or multilayer perceptron) to predict the relation it represents. These algorithms are trained on data extracted from the Repertoire of Cultural Heritage of Quebec, and are tested on a manually annotated corpus (extracted from the repertoire and annotated by us).

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Dissertation/thesis director: Michel Gagnon and Amal Zouaq
Date Deposited: 19 Nov 2018 11:21
Last Modified: 27 Jun 2019 16:47
PolyPublie URL: https://publications.polymtl.ca/3301/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only