<  Retour au portail Polytechnique Montréal

On the convergence of stochastic gradient descent in low-precision number formats

Matteo Cacciola, Antonio Frangioni, Masoud Asgharian, Alireza Ghaffari et Vahid Partovi Nia

Communication écrite (2023)

Document en libre accès dans PolyPublie et chez l'éditeur officiel
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Version officielle de l'éditeur
Conditions d'utilisation: Creative Commons: Attribution-Pas d'utilisation commerciale-Pas de modification (CC BY-NC-ND)
Télécharger (2MB)
Afficher le résumé
Cacher le résumé

Abstract

Deep learning models are dominating almost all artificial intelligence tasks such as vision, text, and speech processing. Stochastic Gradient Descent (SGD) is the main tool for training such models, where the computations are usually performed in single-precision floating-point number format. The convergence of single-precision SGD is normally aligned with the theoretical results of real numbers since they exhibit negligible error. However, the numerical error increases when the computations are performed in low-precision number formats. This provides compelling reasons to study the SGD convergence adapted for low-precision computations. We present both deterministic and stochastic analysis of the SGD algorithm, obtaining bounds that show the effect of number format. Such bounds can provide guidelines as to how SGD convergence is affected when constraints render the possibility of performing high-precision computations remote.

Mots clés

convergence Analysis; floating Pint Arithmetic; low-precision number format; optimization; quasi-convex function; stochastic gradient descent

Sujet(s): 2950 Mathématiques appliquées > 2950 Mathématiques appliquées
Département: Département de mathématiques et de génie industriel
Centre de recherche: Autre
URL de PolyPublie: https://publications.polymtl.ca/54349/
Nom de la conférence: 12th International Conference on Pattern Recognition Applications and Methods (ICPRAM 2023)
Lieu de la conférence: Lisbon, Portugal
Date(s) de la conférence: 2023-02-22 - 2023-02-24
Maison d'édition: SciTePress
DOI: 10.5220/0011795500003411
URL officielle: https://doi.org/10.5220/0011795500003411
Date du dépôt: 13 nov. 2023 11:25
Dernière modification: 05 avr. 2024 23:13
Citer en APA 7: Cacciola, M., Frangioni, A., Asgharian, M., Ghaffari, A., & Nia, V. P. (février 2023). On the convergence of stochastic gradient descent in low-precision number formats [Communication écrite]. 12th International Conference on Pattern Recognition Applications and Methods (ICPRAM 2023), Lisbon, Portugal. https://doi.org/10.5220/0011795500003411

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Dimensions

Actions réservées au personnel

Afficher document Afficher document