<  Retour au portail Polytechnique Montréal

Fusion d'analyseurs syntaxiques pour la production d'une analyse syntaxique robuste

Paul Gédéon

Mémoire de maîtrise (2011)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (750kB)
Afficher le résumé
Cacher le résumé

Résumé

Le projet GITAN cherche à traduire automatiquement du texte en une animation 3D. Pour ce faire, plusieurs outils robustes doivent être combinés afin de former le pipeline de traduction automatique. Un de ces outils néecessaires est l'analyseur syntaxique. Par contre, la performance actuelle des analyseurs syntaxiques connus ne satisfait pas les besoins du projet. Pour contrer ce problème, nous cherchons à fusionner les sorties de différents analyseurs pour produire une analyse plus robuste. Notre principal objectif est d'obtenir une performance maximale et non biaisée à partir d'une fusion d'analyseurs. Pour répondre à cet objectif, nous cherchons à identifier une technique de fusion satisfaisante et une combinaison d'analyseurs qui produit le résultat le plus intéressant. Trois variantes d'une même technique de fusion principale, soit la technique de vote, sont implémentées. La technique de vote pondérée par catégorie syntaxique a été identifiée comme la plus performante des trois. Cette technique pondère les sorties des analyseurs en fonction de la catégorie syntaxique du mot analysée. Ces pondérations proviennent d'un entraînement sur corpus. Notre analyseur par fusion produit rarement des arbres syntaxiques invalides. Quand cette anomalie est détectée, nous reconstruisons un arbre syntaxique valide gràce à des algorithmes de découverte d'arbre de recouvrement minimal sur des graphes orientés. Nous avons ensuite ciblé les analyseurs potentiels pour constituer la combinaison d'analyseurs. Avec la technique de fusion développée et la combinaison d'analyseurs identifiée, nous obtenons des gains de performance intéressants par rapport à la performance du meilleur analyseur faisant partie de la combinaison, atteignant des performances d'environ 91 à 93% de précision.

Abstract

The GITAN project aims to translate automatically text to 3D animation. To do so, many robust tools must be combined to form an automatic translation pipeline. One of those necessary tools is a syntactic parser. However, the actual performance of known parsers doesn't satisfy the needs of our project. To counter this problem, we propose to merge the outputs of dierent parsers to generate a more robust analysis. Our main objective is to obtain a maximal and unbiased performance based on parser merging. To achieve this objective, we need to identify a satisfying merging technique and then nd the parser combination producing the most interesting result. Three variants of the same principal merging technique, the voting technique, have been implemented. The voting technique with weights based on part-of-speech is identied as the most interesting of the three variants. This technique adds weights to the parsers output based on the part-of-speech of the word analyzed. Those weights come from a training on a corpus. Our approach rarely produces invalid syntactic trees. When this anomaly is detected, we reconstruct a valid syntactic tree by applying algorithms discovering minimal spanning trees in directed graphs. We then identied the potential parsers which will be part of the parser combination. With the developed merging technique and the identied parser combination, we obtained interesting gains of performance in function of the performance of the best individual parser, obtaining performances up from 91 to 93% of precision.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Michel Gagnon et Benoît Ozell
URL de PolyPublie: https://publications.polymtl.ca/654/
Université/École: École Polytechnique de Montréal
Date du dépôt: 17 nov. 2011 15:31
Dernière modification: 11 nov. 2022 17:11
Citer en APA 7: Gédéon, P. (2011). Fusion d'analyseurs syntaxiques pour la production d'une analyse syntaxique robuste [Mémoire de maîtrise, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/654/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document