Une généralisation de l'analyse en composantes indépendantes pour le débruitage des signaux de parole

Mohamed Salah Ben Slimen

Mémoire de maîtrise (2021)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (5MB)

Afficher le résumé

Cacher le résumé

Résumé

Les systèmes de reconnaissance vocale existants sont très précis et atteignent des performances élevées lorsqu'ils traduisent le signal de parole en une intention. Ces appareils nécessitent souvent la réception de signaux vocaux sans bruit afin de prédire avec précision l'intention du locuteur. La présence de bruit dans les signaux vocaux peut conduire à de fausses prédictions qui peuvent conduire le système à exécuter de fausses actions. La recherche effectuée fait partie des stages Mitacs Accelerate, qui ont été menés en collaboration avec Fluent.ai, une startup montréalaise spécialisée en intelligence artificielle, plus précisément dans la reconnaissance vocale pour des appareils utilisés dans les maisons intelligentes. L'objectif principal de la recherche est de développer un nouvel algorithme agissant comme front-end pour réduire le bruit des signaux vocaux en utilisant la séparation des sources. Le travail effectué introduit d'abord un examen critique des approches développées précédemment pour appliquer la séparation des sources et réduire le bruit des données. La revue de ces méthodes a permis de développer un algorithme capable de séparer les signaux en un signal de parole et un signal de bruit puis de reconstruire la source de parole débruitée. Deux méthodes ont été proposées aux deux situations possibles : avec ou sans la présence de délais entre les microphones. Les deux algorithmes ont été testés et validés à l'aide d'enregistrements contenant du bruit fournis par notre partenaire industriel Fluent.ai. L'algorithme a été implémenté en tant qu'interface pour l'algorithme de Fluent.ai qui utilise les réseaux de neurones artificiels pour comprendre l'intention du locuteur. Pour cela, nous avons utilisé le même environnement utilisé par Fluent.ai qui a été entièrement implémenté en langage de programmation Python.

Abstract

The existing speech recognition systems reach high and precise performances when under-standing the intention of the speaker. These devices require often the reception of clean speech signals in order to accurately predict the intent of the speaker. The presence of noise in speech signals can lead to false predictions which can lead the system to execute false actions. The research done is part of the Mitacs Accelerate internships, which were conducted in col-laboration with Fluent.ai, a Montréalese startup specializing in speech recognition for smart home devices. The main purpose of the research is to develop a new front-end algorithm to help reducing the noise from speech signals using sources separation. The work done introduces first a critical review of approaches developed previously to apply source separation and reduce the noise from data. The review of those methods helped to develop an algorithm able to separate signals to a speech signal and a noise signal then re-construct a cleaner speech. Two methods were proposed to both possible situations: with or without the presence of delays between the microphones. Both algorithms were investigated and validated using recordings containing noise that were provided by our industrial partner Fluent.ai. The algorithm was implemented as a front-end for a software that uses deep learning neural networks to understand the intent of the speaker. For that we used the same environment used by Fluent.ai which was entirely implemented in Python language.

Département:	Département de mathématiques et de génie industriel
Programme:	Maîtrise recherche en mathématiques appliquées
Directeurs ou directrices:	Antoine Saucier
URL de PolyPublie:	https://publications.polymtl.ca/6291/
Université/École:	Polytechnique Montréal
Date du dépôt:	14 juil. 2021 13:01
Dernière modification:	27 sept. 2024 14:32

Citer en APA 7:	Ben Slimen, M. S. (2021). Une généralisation de l'analyse en composantes indépendantes pour le débruitage des signaux de parole [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/6291/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document