<  Retour au portail Polytechnique Montréal

Identification de la relation sémantique sous-jacente des noms composés

Thierry Bélair

Mémoire de maîtrise (2014)

[img]
Affichage préliminaire
Télécharger (1MB)
Citer ce document: Bélair, T. (2014). Identification de la relation sémantique sous-jacente des noms composés (Mémoire de maîtrise, École Polytechnique de Montréal). Tiré de https://publications.polymtl.ca/1611/
Afficher le résumé Cacher le résumé

Résumé

Résumé Les descriptions de produits d'inventaire, dans l'industrie d'importation/exportation, comptent beaucoup de noms composés, des paires de noms ayant une signification particulière. Nous pourrions mieux comprendre la description, et classer le produit, s'il était possible de comprendre les noms composés dans leur ensemble : deux noms et une relation qui les relie, implicite. Par exemple, le nom composé olive oil peut être interprété avec la paraphrase oil that comes from olive, qui rend explicite la relation de provenance entre olive et oil. Selon Levi (Levi, 1978), douze relations sémantiques sont possibles pour un nom composé. Dans cette recherche, nous reproduisons presque en totalité l'expérience de Nakov (Nakov et Hearst, 2008). À partir d'un nom composé, il génère des requêtes à Google pour obtenir des textes où les deux noms du nom composé sont en relation. Les verbes et particules qui relient les deux noms sont regroupés dans une liste d'éléments prédicatifs, appelée vecteur prédicatif. Le nom composé est ensuite comparé à d'autres noms composés dont la relation est connue, les noms composés de référence. Malheureusement, depuis 2011, la collecte des textes d'internet en utilisant Google n'est plus possible. Notre objectif est donc de rendre indépendant du moteur de recherche de Google l'identification de la relation de nom composé en maintenant le même taux de succès pour l'identification de relation que Nakov. Nous faisons l'hypothèse que nous pouvons identifier la relation sémantique grâce aux textes trouvés sur Wikipédia, sur Faroo, sur Yahoo ou dans les n-grammes de Google. Nous modifions le protocole en plusieurs points. Nous utilisons d'autres corpus. Nous enrichissons la requête avec différents synonymes. Nous refaisons l'expérience avec d'autres vecteurs de référence. Nous modifions la comparaison entre vecteurs de référence et vecteurs du corpus. Finalement, nous essayons aussi des façons différentes de choisir la relation sémantique à partir des résultats précédents. Nous testons le succès de notre prototype de trois façons: en utilisant les noms composés de référence (par Leave-one-out), en utilisant les mêmes noms composés, mais reclassifiés et en utilisant 417 nouveaux noms composés. Nous atteignons au mieux le taux de succès de 33% alors que Nakov rapporte celui de 43%. Malgré les nombreuses possibilités d'amélioration, nos résultats actuels sont significativement en dessous des résultats de la littérature. Il nous faut conclure que dans l'état actuel, l'implémentation de l'approche de Nakov sans le grand nombre de documents indexés par Google n'est pas suffisante pour la catégorisation de noms composés parmi 12 relations implicites.----------Abstract The import/export business must keep track of many different products, but the descriptions of the products are often disorganized. For a machine to decipher the descriptions better, noun compounds could be used. They are numerous in the descriptions. Noun compounds (NC) are a pair of consecutive nouns that have acquired a new meaning. The two nouns are linked by a semantic relation. For example, the noun compound olive oil can be interpreted as oil that comes from olive. According to Levi, there are 12 possible relations for noun compounds, including FROM. In this work, we replicated how Nakov attributed one of the 12 relations to noun compounds. Starting with an unknown noun compound, requests are automatically sent to Google in order to retrieve documents in which the two nouns appear. The features that link the two nouns are extracted and collected into a feature vector. A feature can be either a verb or a verb with its accompanying particle. By comparing feature vectors, the noun compound can be compared to other noun compounds whose relations are known. Unfortunately, since 2011 Google does not accept automatically generated requests. Our goal is to adapt the approach of Nakov to identify the semantic relation in a noun compound without using Google Search. We assert that it is possible by using the texts of Wikipedia, Faroo, Yahoo or the Google n-grams. We modified the approach in a few ways. In addition to using a different text corpus, we form new noun compounds from the synonyms of the first noun compound. The experiment is attempted with feature vectors tweaked in different ways. We try several ways to compare the noun compounds and choose the semantic relation outputted by the system. Our prototype was submitted to three separate evaluations : one using the known noun compounds with the Leave-one-out approach, a second using the same noun compounds, but with different relations and a third using 417 new noun compounds. At best, our success ratio reaches 33%, whereas Nakov reports achieving a 43% success ratio. Even though there are many ways to improve this result, our results are subpar compared to the state of the art. We must conclude that, using a smaller corpus, the method of Nakov cannot correctly classify noun compounds into one of the 12 possible semantic relations.

Document en libre accès dans PolyPublie
Département: Département de génie informatique et génie logiciel
Directeur de mémoire/thèse: Michel Gagnon et Caroline Barrière
Date du dépôt: 01 avr. 2015 15:45
Dernière modification: 24 oct. 2018 16:11
Adresse URL de PolyPublie: https://publications.polymtl.ca/1611/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel