<  Back to the Polytechnique Montréal portal

Fusion d'analyseurs syntaxiques pour la production d'une analyse syntaxique robuste

Paul Gédéon

Masters thesis (2011)

[img]
Preview
Download (750kB)
Cite this document: Gédéon, P. (2011). Fusion d'analyseurs syntaxiques pour la production d'une analyse syntaxique robuste (Masters thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/654/
Show abstract Hide abstract

Abstract

RÉSUMÉ Le projet GITAN cherche à traduire automatiquement du texte en une animation 3D. Pour ce faire, plusieurs outils robustes doivent être combinés afin de former le pipeline de traduction automatique. Un de ces outils néecessaires est l'analyseur syntaxique. Par contre, la performance actuelle des analyseurs syntaxiques connus ne satisfait pas les besoins du projet. Pour contrer ce problème, nous cherchons à fusionner les sorties de différents analyseurs pour produire une analyse plus robuste. Notre principal objectif est d'obtenir une performance maximale et non biaisée à partir d'une fusion d'analyseurs. Pour répondre à cet objectif, nous cherchons à identifier une technique de fusion satisfaisante et une combinaison d'analyseurs qui produit le résultat le plus intéressant. Trois variantes d'une même technique de fusion principale, soit la technique de vote, sont implémentées. La technique de vote pondérée par catégorie syntaxique a été identifiée comme la plus performante des trois. Cette technique pondère les sorties des analyseurs en fonction de la catégorie syntaxique du mot analysée. Ces pondérations proviennent d'un entraînement sur corpus. Notre analyseur par fusion produit rarement des arbres syntaxiques invalides. Quand cette anomalie est détectée, nous reconstruisons un arbre syntaxique valide gràce à des algorithmes de découverte d'arbre de recouvrement minimal sur des graphes orientés. Nous avons ensuite ciblé les analyseurs potentiels pour constituer la combinaison d'analyseurs. Avec la technique de fusion développée et la combinaison d'analyseurs identifiée, nous obtenons des gains de performance intéressants par rapport à la performance du meilleur analyseur faisant partie de la combinaison, atteignant des performances d'environ 91 à 93% de précision.---------- ABSTRACT The GITAN project aims to translate automatically text to 3D animation. To do so, many robust tools must be combined to form an automatic translation pipeline. One of those necessary tools is a syntactic parser. However, the actual performance of known parsers doesn't satisfy the needs of our project. To counter this problem, we propose to merge the outputs of dierent parsers to generate a more robust analysis. Our main objective is to obtain a maximal and unbiased performance based on parser merging. To achieve this objective, we need to identify a satisfying merging technique and then nd the parser combination producing the most interesting result. Three variants of the same principal merging technique, the voting technique, have been implemented. The voting technique with weights based on part-of-speech is identied as the most interesting of the three variants. This technique adds weights to the parsers output based on the part-of-speech of the word analyzed. Those weights come from a training on a corpus. Our approach rarely produces invalid syntactic trees. When this anomaly is detected, we reconstruct a valid syntactic tree by applying algorithms discovering minimal spanning trees in directed graphs. We then identied the potential parsers which will be part of the parser combination. With the developed merging technique and the identied parser combination, we obtained interesting gains of performance in function of the performance of the best individual parser, obtaining performances up from 91 to 93% of precision.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Dissertation/thesis director: Michel Gagnon and Benoit Ozell
Date Deposited: 17 Nov 2011 15:31
Last Modified: 24 Oct 2018 16:10
PolyPublie URL: https://publications.polymtl.ca/654/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only