Hardware-Aware Neural Architecture Search for Quantized Neural Networks Exploration on Resource-Constrained Devices

Roohollah mohammadzadeh

Mémoire de maîtrise (2023)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (3MB)

Afficher le résumé

Cacher le résumé

Résumé

RÉSUMÉ Au cours des dernières années, les réseaux neuronaux profonds (Deep Neural Network - DNN) ont affiché des performances impressionnantes dans divers domaines, tels que la vision par ordinateur, la reconnaissance vocale et le traitement du langage naturel. Cependant, la mise en œuvre et le déploiement des réseaux neuronaux profonds sur des appareils aux ressources limitées est une tâche difficile en raison de leurs exigences de calcul élevées, ce qui entraîne de longs délais d'inférence et une consommation d'énergie accrue. Pour résoudre ce problème, les réseaux neuronaux quantifiés (Quantized Neural Network - QNN) sont apparus comme une solution prometteuse en réduisant la précision des poids et des activations pour les adapter aux dispositifs à ressources limitées. Néanmoins, le processus de quantification entraîne une perte importante d'informations, ce qui réduit la précision. Pour surmonter ce problème, la recherche d'architectures neuronales (Neural Architecture Search - NAS) a été développée pour découvrir des architectures QNN performantes qui maximisent la précision. Cependant, jusqu'à récemment, NAS n'a pas pris en compte les contraintes matérielles telles que la latence. Dans cette thèse, nous avons utilisé l’environnement DARTS, un NAS basé sur le gradient, pour rechercher des QNN à la fois précis et à faible latence, en considérant leur implémentation sur FPGA à l'aide de l’environnement FINN. Nous avons modifié DARTS pour l'adapter aux QNN et proposé un modèle de latence pour intégrer celle-ci comme critère d'optimisation dans le processus de recherche. Nos expériences montrent que l'intégration de la latence dans le processus de recherche ciblant le jeu de données CIFAR-10 peut conduire à une réduction d'environ 1.9× de la latence avec une faible baisse de précision (environ 3.3% en moyenne) par rapport aux architectures trouvées en ignorant la latence dans le processus de recherche.

Abstract

ABSTRACT Over the last few years, Deep Neural Networks (DNNs) have exhibited impressive performance in various domains, such as computer vision, speech recognition, and natural language processing. However, implementing and deploying DNNs on devices with limited resources is a challenging task due to their high computational requirements, resulting in long inference delays and increased energy consumption. To address this issue, Quantized Neural Networks (QNNs) have emerged as a promising solution by reducing the precision of weights and activations to make them suitable for resource-constrained devices. Nonetheless, the process of quantization leads to significant loss of information, thereby reducing accuracy. To overcome this challenge, Neural Architecture Search (NAS) has been developed to discover performant QNN architectures that maximize accuracy. However, NAS has not considered hardware constraints like latency until recently. In this thesis, we used the DARTS framework, a gradient-based NAS, to investigate QNNs that are both accurate and have low latency, considering their implementation on FPGAs using the FINN framework. We modified the DARTS framework to adapt it to QNNs and proposed a latency model to integrate latency as an optimization criterion in the search process. Our experiments show that incorporating latency into the search process targeting CIFAR-10 dataset can lead to around 1.9× reduction in latency with only a small drop in accuracy (about 3.3% on average) compared to the architectures found via ignoring latency through the search process.

Département:	Département de génie électrique
Programme:	Génie électrique
Directeurs ou directrices:	Jean Pierre David et J. M. Pierre Langlois
URL de PolyPublie:	https://publications.polymtl.ca/53405/
Université/École:	Polytechnique Montréal
Date du dépôt:	11 déc. 2023 08:40
Dernière modification:	12 déc. 2024 18:17

Citer en APA 7:	Mohammadzadeh, R. (2023). Hardware-Aware Neural Architecture Search for Quantized Neural Networks Exploration on Resource-Constrained Devices [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/53405/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document