<  Back to the Polytechnique Montréal portal

Stabilizing and Enhancing Learning for Deep Complex and Real Neural Networks

Chiheb Trabelsi

PhD thesis (2019)

[img]
Preview
Download (4MB)
Cite this document: Trabelsi, C. (2019). Stabilizing and Enhancing Learning for Deep Complex and Real Neural Networks (PhD thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/3945/
Show abstract Hide abstract

Abstract

Dans cette thèse nous proposons un ensemble de contributions originales sous la forme de trois articles relatifs aux réseaux de neurones profonds réels et complexes. Nous abordons à la fois des problèmes théoriques et pratiques liés à leur apprentissage. Les trois articles traitent des méthodes conçues pour apporter des solutions aux problèmes de l’instabilité observée au cours de l’entrainement des réseaux, notamment le problème notoire de dilution et d’explosion des gradients ou «vanishing and exploding gradients » lors de l’entrainement des réseaux de neurones profonds. Nous proposons dans un premier temps la conception de modules d’entrainement appropriés, désignés par «building blocks», pour les réseaux de neurones profonds à valeurs complexes. Notre proposition comporte des méthodes d’initialisation et de normalisation ainsi que des fonctions d’activation des unités neuronales. Les modules conçus sont par la suite utilisés pour la spécification d’architectures profondes à valeurs complexes dédiées à accomplir diverses tâches. Ceci comprend des tâches de vision par ordinateur, de transcription musicale, de prédiction du spectre de la parole, d’extraction des signaux et de séparation des sources audio. Finalement nous procédons à une analyse détaillée de l’utilité de l’hypothèse contraignante d’orthogonalité généralement adoptée pour le paramétrage de la matrice de transition à travers les couches des réseaux de neurones réels récurrents.----------ABSTRACT : This thesis presents a set of original contributions in the form of three chapters on real and complex-valued deep neural networks. We address both theoretical issues and practical challenges related to the training of both real and complex-valued neural networks. First, we investigate the design of appropriate building blocks for deep complex-valued neural networks, such as initialization methods, normalization techniques and elementwise activation functions. We apply our theoretical insights to design building blocks for the construction of deep complex-valued architectures. We use them to perform various tasks in computer vision, music transcription, speech spectrum prediction, signal retrieval and audio source separation. We also perform an analysis of the usefulness of orthogonality for the hidden transition matrix in a real-valued recurrent neural network. Each of the three chapters are dedicated to dealing with methods designed to provide solutions to problems causing training instability, among them, the notorious problem of vanishing and exploding gradients during the training of deep neural networks. Throughout this manuscript we show the usefulness of the methods we propose in the context of well known challenges and clearly identifiable objectives. We provide below a summary of the contributions within each chapter. At present, the vast majority of building blocks, techniques, and architectures for training deep neural networks are based on real-valued computations and representations. However, representations based on complex numbers have started to receive increased attention. Despite their compelling properties complex-valued deep neural networks have been neglected due in part to the absence of the building blocks required to design and train this type of network. The lack of such a framework represents a noticeable gap in deep learning tooling.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Academic/Research Directors: Christopher J. Pal
Date Deposited: 11 Oct 2019 09:26
Last Modified: 11 Oct 2020 01:15
PolyPublie URL: https://publications.polymtl.ca/3945/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only