<  Back to the Polytechnique Montréal portal

Hardware aware acceleration in deep neural networks

Mohammad Hossein Askari Hemmat

Ph.D. thesis (2023)

[img] Restricted to: Repository staff only until 13 November 2024
Terms of Use: All rights reserved
Request a copy
Show abstract
Hide abstract

Abstract

Deep neural networks have become increasingly sophisticated in recent years, allowing them to handle more complex tasks. However, as their capabilities have grown, so too has their size and computational demands. Especially, for edge devices where computation and power consumption is of the utmost most importance, running complex models efficiently is a challenge. One of the effective methods to reduce power requirement and computation complexity of deep neural network is called quantization. This process involves mapping floating-point values to integer values in a way that minimizes the loss of accuracy. By reducing the precision of the parameters and intermediate computations, quantization can lead to faster inference and lower memory requirements, which are particularly beneficial for deploying neural networks on resource-constrained devices. In this dissertation, our goal is to understand how quantization works and its impact on training neural networks. Additionally, we endeavor to explore the most effective means of employing quantization by proposing novel custom hardware. To achieve these objectives, we present five distinct articles. The first article introduces a novel fixed-point quantization algorithm that specifically targets accelerating inference for medical image segmentation tasks. Our research findings reveal three key takeaways. Firstly, quantization can be leveraged to enhance computation speed even in medical applications that demand high precision. Secondly, our experiments suggest that there may be slight improvements in accuracy over full precision models when using quantization. This led us to investigate the potential regularization effects of quantization. Finally, we discovered that commodity hardware may present a bottleneck for the efficient deployment of quantized models, highlighting the need for bespoke hardware designs. In the second article, building on the insights gained from our first article, we formulated a hypothesis about the regularization effect of quantization. Through our empirical investigation, we found that while not all quantization levels exhibit this effect, 8-bit quantization reliably provides a form of regularization. To address the computational demands of quantized models, we present custom hardware solutions in the third, fourth, and fifth articles. In the third and fourth articles, we propose a fully customized accelerator capable of running quantized models with arbitrary precision. Finally, in the fifth article, we demonstrate the necessary modifications required for a general-purpose vector processor to run quantized models with sub-byte precision. These articles collectively contribute to our goal of exploring the potential of quantization and developing efficient hardware solutions for its deployment.

Résumé

Ces dernières années, les réseaux de neurones profonds sont devenus de plus en plus sophistiqués, leur permettant d’accomplir des tâches plus complexes. Cependant, à mesure que leur performance a augmentée, leur taille et leurs exigences en matière de calcul l’ont également. En particulier, pour les dispositifs de pointe où le calcul et la consommation d’énergie sont les plus importants, l’exécution efficace de modèles complexes est un défi. L’une des méthodes efficaces pour réduire les besoins en énergie et la complexité de calcul d’un réseau neuronal profond est appelée quantification. Ce processus implique de faire correspondre des valeurs à virgule flottante sur des valeurs entières de manière à minimiser la perte de précision. En réduisant la précision des paramètres et des calculs intermédiaires, la quantification peut conduire à une inférence plus rapide et à des besoins en mémoire réduits, ce qui est particulièrement bénéfique pour le déploiement de réseaux de neurones sur des appareils à ressources limitées. Dans cette thèse, notre objectif est de comprendre le fonctionnement de la quantification et son impact sur l’entraînement des réseaux de neurones. De plus, nous explorons les moyens les plus efficaces d’employer la quantification en proposant du matériel dédié innovant. Pour atteindre ces objectifs, cinq articles distincts seront présentés. Le premier article présente un nouvel algorithme de quantification en virgule fixe qui cible spécifiquement l’accélération de l’inférence pour les tâches de segmentation d’images médicales. Les résultats de nos recherches révèlent trois points clés. Premièrement, la quantification peut être exploitée pour améliorer la vitesse de calcul, même dans les applications médicales qui exigent une grande précision. Deuxièmement, nos expériences suggèrent qu’il peut y avoir de légères améliorations de la précision par rapport aux modèles de précision totale lors de l’utilisation de la quantification. Cela nous a conduit à étudier les effets potentiels de régularisation de la quantification. Enfin, nous avons découvert que le matériel informatique standard peut présenter un goulot d’étranglement pour le déploiement efficace de modèles quantifiés, soulignant le besoin de conception de matériel sur mesure. Dans le deuxième article, en nous appuyant sur les connaissances acquises dans notre premier article, nous avons formulé une hypothèse sur l’effet de régularisation de la quantification. Grâce à notre étude empirique, nous avons constaté que même si tous les niveaux de quantification ne présentent pas cet effet, la quantification 8 bits fournit de manière fiable une forme de régularisation. Pour répondre aux exigences de calcul des modèles quantifiés, nous présentons des solutions matérielles personnalisées dans le troisième, quatrième et cinquième article. Dans le troisième et quatrième article, nous proposons un accélérateur entièrement personnalisé capable d’exécuter des modèles quantifiés avec une précision arbitraire. Enfin, dans le cinquième article, nous démontrons les modifications nécessaires requises pour qu’un processeur vectoriel à usage général exécute des modèles quantifiés avec une précision inférieure à l’octet. Ces articles contribuent collectivement à notre objectif d’explorer le potentiel de la quantification et de développer des solutions matérielles efficaces pour son déploiement.

Department: Department of Electrical Engineering
Program: Génie électrique
Academic/Research Directors: Jean Pierre David and Yvon Savaria
PolyPublie URL: https://publications.polymtl.ca/54838/
Institution: Polytechnique Montréal
Date Deposited: 13 Nov 2023 11:20
Last Modified: 13 Apr 2024 06:10
Cite in APA 7: Askari Hemmat, M. H. (2023). Hardware aware acceleration in deep neural networks [Ph.D. thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/54838/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item