<  Back to the Polytechnique Montréal portal

Algorithme d’apprentissage du quantron basé sur Spikeprop

Jérémie Villeneuve

Masters thesis (2015)

[img]
Preview
Download (3MB)
Cite this document: Villeneuve, J. (2015). Algorithme d’apprentissage du quantron basé sur Spikeprop (Masters thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/1959/
Show abstract Hide abstract

Abstract

RÉSUMÉ : Le quantron est un modèle de neurone artificiel basé sur la modélisation de la diffusion des neurotransmetteurs dans la fente synaptique. Son potentiel en reconnaissance de formes a été maintes fois démontré sur des tâches de classification à frontières hautement non linéaires. Actuellement, l’exploitation de ce potentiel est restreint par l’absence d’un algorithme d’apprentissage efficace pour entraîner le quantron dans sa formulation originale. Deux obstacles majeurs entravent l’entraînement de ce neurone. D’abord, sa sortie analogique comporte des discontinuités et ne peut être ramenée à une expression analytique et dérivable faisant intervenir les paramètres du modèle. D’autre part, à cause du formalisme de seuil d’activation inspiré du neurone biologique, il arrive que le quantron ne soit pas suffisamment excité pour transmettre l’information. La façon de gérer de tels neurones silencieux dans un contexte d’apprentissage requiert le développement de nouveaux principes. Ainsi, l’objectif principal de ce mémoire est de concevoir un algorithme qui puisse entraîner des réseaux de quantrons en proposant divers moyens pour contourner les difficultés décrites. Le quantron partage certaines caractéristiques (sommation spatio-temporelle de potentiels postsynaptiques et mécanisme de seuil d’activation) avec la toute dernière génération de neurones artificiels, à savoir les neurones à impulsions. Ces similarités ont motivé une revue des algorithmes d’apprentissage développés pour ceux-ci ayant mené à l’identification du modèle de neurone SpikeProp (un dérivé du Spike Response Model) ressemblant particulièrement au quantron. L’algorithme SpikeProp associé, qui procède par rétropropagation de l’erreur et par linéarisation du potentiel de membrane autour de l’instant où le seuil est atteint, a ainsi pu être adapté au quantron avec succès. L’approximation sous-jacente à SpikeProp permet de franchir le premier obstacle associé à la non-dérivabilité de la sortie du quantron en fonction des paramètres. Concernant le phénomène des neurones silencieux, bien qu’il survienne aussi pour les neurones impulsionnels, aucune méthode de gestion systématique et rigoureuse n’a été développée. En conséquence, on propose ici des heuristiques mesurant l’effet de chaque type de paramètre (poids synaptique, délai synaptique et demi-largeur des potentiels postsynaptiques) sur l’état d’activation du quantron dans le but de définir symboliquement certaines dérivées apparaissant dans le formalisme de rétropropagation de l’erreur. Celles-ci se fondent à la fois sur des approximations étudiées dans des travaux antérieurs, sur des résultats démontrés dans ce mémoire et sur des raisonnements intuitifs. Pour chaque type de paramètre, cinq heuristiques sont ainsi proposées et un processus de sélection en deux étapes est mis en place pour retenir celles qui s’avèrent optimales. Six tâches de classification binaire servent d’assise pour la comparaison des performances. Elles consistent à classer les pixels d’images de caractères alphabétiques préalablement générées par des quantrons individuels en utilisant des valeurs cibles pour la sortie du neurone et pour son état d’activation. En considérant la combinaison optimale d’heuristiques identifiée, le taux moyen de classification correcte sur les six tâches dépasse les 98 %. L’algorithme élaboré peut aussi être appliqué en utilisant des états d’activation cibles exclusivement : les problèmes précédents ont donc été repris de cette manière. On conclut des résultats observés qu’il faut un réseau 2-10-1 pour retrouver des taux moyens de classification comparables à ceux obtenus lorsque les sorties analogiques cibles sont disponibles. Afin de poursuivre l’analyse dans ce contexte, six nouveaux problèmes de classification aux surfaces de décision variées — incluant le OU exclusif — sont introduits. La méthode est alors appliquée avec des réseaux comportant de 0 (quantron seul) à 10 unités cachées. Tandis que peu de problèmes sont résolus avec des architectures à moins de deux neurones cachés, la proportion augmente régulièrement avec la taille de la couche cachée, signe de la capacité de l’algorithme à exploiter la puissance de calcul fournie par les unités additionnelles. L’observation d’une baisse de performance des réseaux 2-1-1 par rapport aux quantrons seuls est expliquée par le fait qu’un quantron à une entrée agit comme une porte à seuil (threshold gate) ce qui augmente généralement la complexité de la tâche à effectuer par le neurone caché de ces réseaux. Sur cinq des six problèmes, des taux moyens de classification supérieurs à 95 % sont atteints avec des réseaux 2-10-1. L’algorithme proposé possède plusieurs avantages, le premier étant qu’il supporte les mécanismes originaux du quantron. Effectivement, les modifications apportées à la fonction d’activation et à la sortie analogique ne modifient pas le comportement et le réalisme biologique du quantron. Comme déjà discuté, la capacité de la procédure à tirer profit de la puissance de neurones cachés supplémentaires se révèle être un autre point positif. Un dernier avantage de la méthode est la simplicité et la rapidité d’évaluation des règles d’apprentissage, puisqu’elles se basent sur les caractéristiques de la fonction d’activation en un instant seulement. L’envers de la médaille est que l’effet des paramètres sur la forme de cette dernière risque d’être mal évalué par le fait même de cette simplicité. Considérer un instant précis signifie également considérer un nombre réduit de potentiels postsynaptiques et il est possible que cela soit la cause de plusieurs essais divergents pour lesquels l’algorithme donne une trop grande magnitude au poids d’une entrée tout en étouffant les autres. Un dernier inconvénient apparaît dans une situation bien spécifique où l’apprentissage stagne momentanément lorsque toute une couche de neurones reste simultanément silencieuse suite à un stimulus. De telles circonstances demeurent toutefois assez rares. Les bonnes performances livrées par ce nouvel algorithme encouragent à l’investiguer davantage et à proposer des ajouts et des modifications pour en accroître l’efficacité. Les travaux futurs consisteraient notamment à implémenter des règles d’apprentissage tenant compte de l’aspect global de la fonction d’activation (par opposition à ses propriétés en un temps précis), à élaborer une méthode d’initialisation des paramètres d’un réseau qui minimiserait la proportion d’essais divergents, et d’appliquer la méthode à des problèmes multiclasses en recourant à de multiples neurones de sortie.----------ABSTRACT : The quantron is an advanced artificial neuron based on the mathematical modelling of neurotransmitter diffusion in the synaptic cleft. Its potential in pattern recognition was established on classification tasks showing highly nonlinear decision boundaries. Currently, this potential can not be fully exploited since no learning algorithm has been proposed to train the quantron in its exact form. Two main aspects hinders the training of the quantron. On one hand, its analog output suffers from discontinuities and does not have an analytic and differentiable expression with respect to model parameters. On the other hand, due to the underlying threshold firing mechanism inspired from biological neurons, the quantron can block information transmission if not sufficiently excited by the input pattern. The question of how to manage such silent neurons in a learning context is complex and new principles needs to be developed in this regard. Therefore, the main objective of this work is to design an algorithm for training multilayer quantrons implementing various means to overcome the aforementioned impediments. The quantron shares some characteristics (the spatiotemporal summation of postsynaptic potentials and the threshold firing mechanism) with the latest generation of artificial neurons, namely the spiking neurons. These similarities motivated a literature review of spiking neuron learning algorithms which led to the identification of the SpikeProp neuron (a simplified form of the Spike Response Model) as a model highly similar to the quantron. This allowed the associated SpikeProp algorithm — implementing error backpropagation and membrane potential linearization around the firing time — to be successfully adapted to the quantron to overcome the problem of the non-differentiability of the analog output with respect to parameters. Even though spiking neurons are also subject to block information, no systematic, rigorous method was developed to deal with such silent units. Consequently, this work proposes heuristics assessing the effect of each type of parameter (synaptic weight, synaptic delay and postsynaptic potential half-width) on the activation state of the quantron. This way, activation state derivatives appearing in the error backpropagation paradigm are defined unambiguously. These heuristics are based on previous work approximations, results proven in this dissertation and intuitive reasoning. For each parameter type, five heuristics are built and a two-step selection process is set up to retain the optimal ones. Six binary classification tasks are used to assess performance. Each consists in classifying the pixels of a binary image representing an alphabetic character reviously generated by single quantrons using target values for the neuron’s analog output and activation state. When run using the optimal set of heuristics, the method yields a classification rate exceeding 98 % when averaged over all six tasks. Since the algorithm can be applied using target activation states only, the previous problems were reconsidered in this fashion. Results show that 2-10-1 networks are necessary to achieve comparable mean classification rates than those obtained when target analog output values are available. To investigate further in this direction, six new classification problems having varied decision boundaries — including the well-known XOR problem — are introduced. Architectures with hidden layer size ranging from 0 (single quantron) to 10 hidden neurons are trained. While very few problems are perfectly solved with networks having less than two hidden units, this proportion steadily increases with hidden layer size. This behavior is evidence of the ability of the algorithm to exploit extra computation power made available by additional units. The performance drop observed for 2-1-1 networks is explained by the fact that a single-input quantron acts as a threshold gate and that this generally increases the complexity of the problem to be solved by the hidden neuron. On five problems out of six, mean classification rates exceeding 95 % are obtained with 2-10-1 architectures. The new method exhibits many advantages, the first being that it works with the original quantron mechanism. Indeed, even though modifications were made to the activation function and to the analog output, neither of them alters its behavior or its biological realism. As was mentioned previously, another positive aspect is that it is able to take advantage of additional hidden neurons to solve complex problems. Also, the evaluation of learning rules is simple and quick since it relies on properties of the activation function at a single time. The inherent drawback is that it may oversimplify the effect of a parameter modification on the shape of the activation function. Moreover, considering a single time often means considering a small number of postsynaptic potentials: that is possibly the cause for many divergent runs where the algorithm gave too much importance to a single input (by increasing its weight) and neglecting or suppressing the others. Another drawback appears in a very special case where learning momentarily stops if a whole layer of neurons remains silent following an input pattern. Fortunately, such a condition is hardly ever met. The good performance delivered by this novel algorithm suggests that it is worth investigating further in this direction to devise extensions increasing its efficacy. Future work would include creating improved heuristics taking into account the global shape of the activation function instead of relying on a single point, designing a better parameter initialization procedure minimizing the proportion of divergent runs, and applying the method to multiclass problems using multiple output neurons.

Open Access document in PolyPublie
Department: Département de mathématiques et de génie industriel
Dissertation/thesis director: Richard Labib
Date Deposited: 01 Apr 2016 10:25
Last Modified: 24 Oct 2018 16:11
PolyPublie URL: https://publications.polymtl.ca/1959/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only