Hardware aware acceleration in deep neural networks

Thèse de doctorat (2023)

Accès restreint: Personnel autorisé jusqu'au 13 novembre 2024
Conditions d'utilisation: Tous droits réservés
Demander document

Afficher le résumé

Cacher le résumé

Résumé

Ces dernières années, les réseaux de neurones profonds sont devenus de plus en plus sophistiqués, leur permettant d’accomplir des tâches plus complexes. Cependant, à mesure que leur performance a augmentée, leur taille et leurs exigences en matière de calcul l’ont également. En particulier, pour les dispositifs de pointe où le calcul et la consommation d’énergie sont les plus importants, l’exécution efficace de modèles complexes est un défi. L’une des méthodes efficaces pour réduire les besoins en énergie et la complexité de calcul d’un réseau neuronal profond est appelée quantification. Ce processus implique de faire correspondre des valeurs à virgule flottante sur des valeurs entières de manière à minimiser la perte de précision. En réduisant la précision des paramètres et des calculs intermédiaires, la quantification peut conduire à une inférence plus rapide et à des besoins en mémoire réduits, ce qui est particulièrement bénéfique pour le déploiement de réseaux de neurones sur des appareils à ressources limitées. Dans cette thèse, notre objectif est de comprendre le fonctionnement de la quantification et son impact sur l’entraînement des réseaux de neurones. De plus, nous explorons les moyens les plus efficaces d’employer la quantification en proposant du matériel dédié innovant. Pour atteindre ces objectifs, cinq articles distincts seront présentés. Le premier article présente un nouvel algorithme de quantification en virgule fixe qui cible spécifiquement l’accélération de l’inférence pour les tâches de segmentation d’images médicales. Les résultats de nos recherches révèlent trois points clés. Premièrement, la quantification peut être exploitée pour améliorer la vitesse de calcul, même dans les applications médicales qui exigent une grande précision. Deuxièmement, nos expériences suggèrent qu’il peut y avoir de légères améliorations de la précision par rapport aux modèles de précision totale lors de l’utilisation de la quantification. Cela nous a conduit à étudier les effets potentiels de régularisation de la quantification. Enfin, nous avons découvert que le matériel informatique standard peut présenter un goulot d’étranglement pour le déploiement efficace de modèles quantifiés, soulignant le besoin de conception de matériel sur mesure. Dans le deuxième article, en nous appuyant sur les connaissances acquises dans notre premier article, nous avons formulé une hypothèse sur l’effet de régularisation de la quantification. Grâce à notre étude empirique, nous avons constaté que même si tous les niveaux de quantification ne présentent pas cet effet, la quantification 8 bits fournit de manière fiable une forme de régularisation. Pour répondre aux exigences de calcul des modèles quantifiés, nous présentons des solutions matérielles personnalisées dans le troisième, quatrième et cinquième article. Dans le troisième et quatrième article, nous proposons un accélérateur entièrement personnalisé capable d’exécuter des modèles quantifiés avec une précision arbitraire. Enfin, dans le cinquième article, nous démontrons les modifications nécessaires requises pour qu’un processeur vectoriel à usage général exécute des modèles quantifiés avec une précision inférieure à l’octet. Ces articles contribuent collectivement à notre objectif d’explorer le potentiel de la quantification et de développer des solutions matérielles efficaces pour son déploiement.

Abstract

Deep neural networks have become increasingly sophisticated in recent years, allowing them to handle more complex tasks. However, as their capabilities have grown, so too has their size and computational demands. Especially, for edge devices where computation and power consumption is of the utmost most importance, running complex models efficiently is a challenge. One of the effective methods to reduce power requirement and computation complexity of deep neural network is called quantization. This process involves mapping floating-point values to integer values in a way that minimizes the loss of accuracy. By reducing the precision of the parameters and intermediate computations, quantization can lead to faster inference and lower memory requirements, which are particularly beneficial for deploying neural networks on resource-constrained devices. In this dissertation, our goal is to understand how quantization works and its impact on training neural networks. Additionally, we endeavor to explore the most effective means of employing quantization by proposing novel custom hardware. To achieve these objectives, we present five distinct articles. The first article introduces a novel fixed-point quantization algorithm that specifically targets accelerating inference for medical image segmentation tasks. Our research findings reveal three key takeaways. Firstly, quantization can be leveraged to enhance computation speed even in medical applications that demand high precision. Secondly, our experiments suggest that there may be slight improvements in accuracy over full precision models when using quantization. This led us to investigate the potential regularization effects of quantization. Finally, we discovered that commodity hardware may present a bottleneck for the efficient deployment of quantized models, highlighting the need for bespoke hardware designs. In the second article, building on the insights gained from our first article, we formulated a hypothesis about the regularization effect of quantization. Through our empirical investigation, we found that while not all quantization levels exhibit this effect, 8-bit quantization reliably provides a form of regularization. To address the computational demands of quantized models, we present custom hardware solutions in the third, fourth, and fifth articles. In the third and fourth articles, we propose a fully customized accelerator capable of running quantized models with arbitrary precision. Finally, in the fifth article, we demonstrate the necessary modifications required for a general-purpose vector processor to run quantized models with sub-byte precision. These articles collectively contribute to our goal of exploring the potential of quantization and developing efficient hardware solutions for its deployment.

Département:	Département de génie électrique
Programme:	Génie électrique
Directeurs ou directrices:	Jean Pierre David et Yvon Savaria
URL de PolyPublie:	https://publications.polymtl.ca/54838/
Université/École:	Polytechnique Montréal
Date du dépôt:	13 nov. 2023 11:20
Dernière modification:	13 avr. 2024 06:10

Citer en APA 7:	Askari Hemmat, M. H. (2023). Hardware aware acceleration in deep neural networks [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/54838/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document