Approximate Inference in Bayesian Neural Networks

Nadhir Hassen

Mémoire de maîtrise (2021)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (2MB)

Afficher le résumé

Cacher le résumé

Résumé

Les réseaux de neurones profonds sont capables de résoudre de nombreux problèmes d'apprentissage automatique et aptes à atteindre des performances de pointe en raison de leur flexibilité, mais les modèles d'apprentissage profond sont difficiles à interpréter et souffrent d'un sur-ajustement statistique qui affecte leurs capacités de généralisation; en e˙et, ces derniers ont tendance à surestimer l'intervalle de confiance par rapport à leurs prédictions. Ceci peut être problématique pour les champs d'applications réels tels que les diagnostics médicaux ou les voitures autonomes. L'inférence bayésienne fournit des outils utiles pour s'attaquer à ces problèmes, mais cela a un coût, l'inférence bayésienne (exacte) pour les réseaux de neurones est dans la plupart des cas complexe dû à l'absence de forme analytique. L'apprentissage bayésien reste un bon choix pour concevoir des méthodes efficaces en fournissant une solution approximative. En effet, cette méthode combine inférence approximative et un cadre d'optimisation plus flexible. Cependant, l'efficacité des réseaux de neurones bayésiens est limitée à des distributions spécifiques et dans la majorité des cas la distribution a posteriori n'a pas de forme explicite. Dans ce mémoire, nous abordons ces problèmes en démystifiant la relation entre l'inférence approximative et les méthodes d'optimisation à l'aide de la méthode de Gauss-Newton généralisée. Les réseaux de neuronnes bayésiens affichent de bons résultats en combinant la méthode de Gauss-Newton généralisée avec l'approximation de Laplace et gaussienne. Les deux méthodes calculent une approximation gaussienne de la distribution a posteriori, mais on ne sait pas comment elles affectent le modèle probabiliste sous-jacent. Les deux méthodes se basent sur un traitement rigoureux du modèle probabiliste sous-jacent mais l'interprétation de leurs résultats est moins claire. Nous cherchons à être en mesure de distinguer lorsqu'un modèle particulier échoue et la capacité de quantifier son incertitude. Nous avons constaté que la méthode de Gauss-Newton généralisée simplifie le modèle probabiliste sous-jacent et fournit un degré d'incertitude. En particulier, l'approximation de Laplace et l'approximation gaussienne fournissent une distribution a posteriori plus flexible qui peut être appliquée lorsque l'échantillon de données est assez grand. Dans ce travail, nous présentons une méthode d'inférence qui relie les deux approches. En fait, l'approximation gaussienne est considérée comme un concurrent direct de l'approximation de Laplace, fournit une inférence dans l'espace de fonction tandis que Laplace manifeste une inférence dans l'espace de paramètres. La combinaison de l'une ou l'autre à la méthode de Gauss-Newton doit être considérée comme une linéarisation locale du réseau de neurones bayésien. Ainsi, on obtient un modèle linéaire généralisé (GLM). Ce cadre permet de résoudre les problèmes courants de sous-ajustement de l'approximation de Laplace. Plus intéressant même, nous sommes capables de faire la conversion d'un modèle GLM à un processus gaussien; ceci permet de faire le lien entre l'inférence dans l'espace de paramètres et l'inférence dans l'espace de fonctions dans le cadre de réseaux de neurones bayésiens.

Abstract

Deep neural networks provide ways to tackle many real-world machine learning problems, achieving state-of-the-art performance due to their flexibility. However, deep learning models can be hard to interpret, sometimes suffer from overfitting, which affects their generalization capabilities, and tend to overstate the confidence of their predictions. This can be prob-lematic for real-world applications such as medical diagnostics or self-driving cars. Bayesian pragmatism provides useful tools to tackle these issues, but it comes at a cost: the exact Bayesian inference appropriate to a neural network is often intractable. Bayesian deep learning remains a good choice to design efficient methods by providing an approximate solution; combining as it does approximate inference and a scalable optimization framework. However, the practical effectiveness of Bayesian neural networks is limited by the need to specify meaningful prior distributions, and by the intractability of posterior inference. In this thesis, we address these issues by attempting to demystify the relationship between approximate inference and optimization approaches through the generalized Gauss–Newton method. Bayesian deep learning yields good results, combining Gauss–Newton with Laplace and Gaussian variational approximation. Both methods compute a Gaussian approximation to the posterior; however, it remains unclear how these methods affect the underlying probabilistic model and the posterior approximation. Both methods allow a rigorous analysis of how a particular model fails and the ability to quantify its uncertainty. We found that the generalized Gauss–Newton method simplifies the underlying probabilistic model and provides a meaningful uncertainty quantification. In particular, the Laplace and Gaussian variational approximations provide a tractable and scalable approach to posterior approximation, applicable to large datasets. In this work, we use the Bayesian approach to infer neural networks based on two approximate inference techniques. In fact, the Gaussian variational approximation is considered as a direct competitor to Laplace approximation, providing function-space inference while Laplace performs weight-space inference. The combination of either method with Gauss–Newton should be understood as a local linearization of the Bayesian neural net-work, which becomes a generalized linear model (GLM). This approach enables us to resolve common underfitting problems with the Laplace approximation; the conversion to Gaussian processes enables inference schemes for Bayesian neural networks in function space. Key words: Bayesian optimization, deep learning, variational inference, Laplace approximation, neural networks.

Département:	Département de mathématiques et de génie industriel
Programme:	Maîtrise recherche en mathématiques appliquées
Directeurs ou directrices:	Mario Lefebvre et Irina Rish
URL de PolyPublie:	https://publications.polymtl.ca/9899/
Université/École:	Polytechnique Montréal
Date du dépôt:	25 avr. 2022 15:21
Dernière modification:	01 oct. 2024 06:36

Citer en APA 7:	Hassen, N. (2021). Approximate Inference in Bayesian Neural Networks [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/9899/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document