Nouvelle approche analytique pour l'apprentissage du quantron

Simon de Montigny

Thèse de doctorat (2014)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

Le quantron est un neurone artificiel inspiré d'un modèle stochastique de la diffusion synaptique. Ce type de neurone biologiquement réaliste a le potentiel d'améliorer les capacités de classification des réseaux de neurones utilisés en reconnaissance de formes. Cependant, le quantron présente des difficultés pour l'implémentation d'un algorithme d'apprentissage efficace. Ceci est dû à la présence de discontinuités dans la fonction de réponse qui caractérise l'émission ou l'absence d'émission de neurotransmetteurs en réaction à la stimulation des synapses d'entrée. Ces discontinuités nuisent à l'apprentissage par modification itérative des paramètres du neurone. Ainsi, nous adoptons une approche analytique pour contourner ces difficultés et développer de nouveaux algorithmes d'apprentissage pour entraîner un quantron ou un réseau de quantrons. D'abord, nous nous intéressons au maximum de la fonction représentant le potentiel électrique du quantron, appelée fonction d'activation. Par comparaison à un seuil d'excitabilité, ce maximum détermine l'état d'activité du quantron, qui est alors utilisé comme classificateur. En utilisant des potentiels post-synaptiques ayant un profil rectangulaire, nous obtenons une approximation du maximum en substituant des fonctions quadratiques aux signaux provenant des synapses d'entrée. Avec cette approximation analytique, nous démontrons expérimentalement la possibilité d'entraîner le quantron en minimisant une surface d'erreur par descente du gradient. De plus, pour certains problèmes, nous observons une amélioration des résultats d'un algorithme de recherche directe. Ensuite, en utilisant une configuration particulière du quantron, nous trouvons une forme analytique simple pour la fonction d'activation dans le cas où les potentiels post-synaptiques possèdent un profil rectangulaire ou en rampe. Cette expression permet de lier les paramètres du quantron aux caractéristiques géométriques de sa frontière de décision. En se basant sur ces résultats, nous développons deux algorithmes d'apprentissage distincts, l'un procédant par l'analyse des configurations de la frontière de décision, et l'autre par l'inversion directe d'un système d'équations. Ces algorithmes permettent une résolution efficace de problèmes de classification pour lesquels le quantron admet une représentation sans erreur. Enfin, nous portons attention au problème de l'apprentissage d'un réseau de quantrons. Dans le cas de potentiels post-synaptique avec un potentiel triangulaire, nous proposons une approximation analytique du temps où s'active le quantron, qui est déterminé par le premier instant où la fonction d'activation atteint le seuil d'excitabilité. L'expression mathématique résultante, utilisée comme valeur de réponse du neurone, permet d'adapter l'algorithme de rétropropagation de l'erreur au réseau. Nous montrons qu'il devient alors possible d'entraîner des neurones qui autrement resteraient inactifs lors de l'apprentissage. De plus, nous illustrons la capacité des réseaux de quantrons à résoudre certains problèmes de classification en nécessitant moins de paramètres que des réseaux de neurones impulsionnels ou des réseaux de perceptrons. Les trois aspects du quantron étudiés dans cette thèse mènent à des algorithmes qui se distinguent des approches antérieures utilisées pour l'apprentissage des réseaux de neurones impulsionnels. En effet, notre approche analytique permet d'éviter les discontinuités qui perturbent le processus d'apprentissage grâce au lissage résultant de l'approximation analytique du maximum de la fonction d'activation et du temps d'activation. De plus, l'analyse géométrique de la frontière de décision est rendue possible par l'expression analytique de la fonction d'activation. Le résultat le plus probant est la tentative fructueuse de résolution du problème associé à l'entraînement des neurones inactifs, appelé problème des neurones silencieux. Par notre approche analytique de l'apprentissage du quantron, nous proposons donc des algorithmes originaux et innovateurs qui contribuent à une meilleure compréhension de l'apprentissage dans les réseaux de neurones biologiquement réalistes.

Abstract

The quantron is an artificial neuron inspired by a stochastic model of synaptic diffusion. This type of biologically realistic neuron can improve the classification capacity of neural networks used in pattern recognition. However, the implementation of an efficient learning algorithm for the quantron proves to be challenging. This is due to the presence of discontinuities in the output function which characterizes the emission of neurotransmitters, or lack thereof, as a reaction to the stimulus applied to synaptic inputs. These discontinuities disrupt the iterative training of the neuron's parameters. Thus, in this work, we follow an analytical approach to avoid these difficulties and develop new learning algorithms adapted to the quantron and to networks of quantrons. First, we study the maximum of the function representing the electrical potential of the quantron, called the activation function. By comparing this function to an excitability threshold, this maximum determines the activity state of the neuron, which can be used as a classifier. Using post-synaptic potentials with a rectangular profile, we obtain an analytical approximation of the maximum by substituting quadratic functions for the signals stemming from the synaptic inputs. With this analytical approximation, we provide an experimental demonstration of the quantron being trained by minimizing an error surface via gradient search. Also, for certain problems, we observe an improvement of the results obtained by using a direct search algorithm. Second, using a specific configuration of the quantron, we find a simple analytical form for the activation function when the post-synaptic potentials have a rectangular or ramp profile. This expression links the parameters of the quantron to the geometrical characteristics of its decision boundary. Building upon these results, we obtain two distinct learning algorithms, one proceeding by analyzing the configurations of the decision boundary, and the other by solving directly a system of equations. These algorithms are able to solve efficiently classification problems for which the quantron admits an errorless representation. Third, we focus on the problem of training a network of quantrons. For post-synaptic potentials having a triangular profile, we propose an analytical approximation of the time when the quantron's activation function reaches the excitability threshold. The resulting mathematical expression, used as the neuron's output, enables the adaptation of the error backpropagation algorithm to the network. We show that it is then possible to modify the parameters of neurons which would otherwise remain inactive during training. Furthermore, we show that networks of quantrons can solve particular classification problems using fewer parameters than networks of spiking neurons or networks of perceptrons. The three aspects of the quantron studied in this thesis yield algorithms which differ from previous attempts to train spiking neural networks. Indeed, we avoid the discontinuities that disturb the training process due to the smoothing effect of the analytical approximation of the activation function's maximum and of the activation time. Also, the geometrical analysis of the decision boundary is made possible by the analytical expression of the activation function. The most important result is the successful attempt to solve the problem of training inactive neurons, called the silent neuron problem. By following an analytical approach in the study of the quantron, we propose original and innovative algorithms which contribute to a better understanding of the learning process in networks of biologically realistic neurons.

Département:	Département de mathématiques et de génie industriel
Programme:	Mathématiques de l'ingénieur
Directeurs ou directrices:	Richard Labib
URL de PolyPublie:	https://publications.polymtl.ca/1541/
Université/École:	École Polytechnique de Montréal
Date du dépôt:	23 déc. 2014 10:37
Dernière modification:	01 oct. 2024 00:51

Citer en APA 7:	de Montigny, S. (2014). Nouvelle approche analytique pour l'apprentissage du quantron [Thèse de doctorat, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/1541/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document