<  Retour au portail Polytechnique Montréal

Transformers with Convolutional Methods for Person Re-Identification

Daniel Wang

Mémoire de maîtrise (2022)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (5MB)
Afficher le résumé
Cacher le résumé

Résumé

Les transformateurs se sont révélés prometteurs dans une grande variété de tâches dans le domaine de la vision par ordinateur, comme la classification d'images. Cependant, par rapport aux travaux de recherche sur la classification d'images, les travaux sur les transformateurs pour la réidentification de personnes est actuellement très limitée. Les chercheurs ont précédemment démontré qu'un réseau convolutif augmenté d'un module basé sur les parties est capable d'effectuer avec une bonne précision la réidentification de personnes, à condition que le réseau convolutif principal ait été conçu pour la classification d'images. Il en va de même pour les Transformateurs, qui peuvent servir d'épine dorsale à un module de représentation locale dans la mesure où l'architecture du Transformer a été conçue dans le but de réidentifier des personnes. Compte tenu de la montée en puissance des Transformateurs dans le domaine de la vision par ordinateur, les réseaux convolutifs risquent d'être remplacés par des architectures avec Transformateurs qui fonctionnent avec le mécanisme d'auto-attention au lieu des convolutions, mais les architectures convolutives retiennent tout de même leurs avantages sur les transformateurs en vertu de localité spatiale, alors que l'auto-attention manque de localité. Compte tenu les atouts des réseaux convolutifs et des transformateurs, nous cherchons à combiner ces deux approches fondamentales de la vision par ordinateur et de la réidentification de personnes, en particulier en intégrant les méthodes des réseaux convolutifs au LA-Transformer dans la construction d’architectures. Ainsi, nous incorporons l'attention à la covariance croisée et la méthode de la fenêtre mobile en tant qu'approches convolutionnelles pour améliorer les performances des LA-Transformers dans la tâche de ré-identification de personnes. De plus, nous incorporons des méthodes d’entrainement efficace afin d’améliorer l'efficacité du modèle ré-identification des personnes.

Abstract

Transformers have shown promise in a wide variety of tasks in the field of computer vision, such as image classification. However, compared to research in image classification, research on transformers for person re-identification has been scant in comparison. Researchers have previously demonstrated that a convolutional network augmented with a parts-based module can perform person re-identification, so long as the backbone convolutional network was designed for image classification. The same holds for Transformers, which may act as a backbone for a locally aware module insofar as the Transformer backbone architecture was designed for person reidentification. Given the rise of Transformers in computer vision, convolutional networks have been at risk of being displaced by Transformer architectures that operate with the self-attention mechanism instead of convolutions, but convolutional methods retain their advantage over selfattention in that it accounts for spatial locality, whereas self-attention lacks locality. Given the advantages of convolutional neural networks and transformers, we seek to combine these two fundamentally different approaches to computer vision and person re-identification, specifically by integrating convolutional methods into the LA-Transformer in the construction of architectures. To wit, we incorporate cross-covariance attention and the shifting window method as convolutional approaches to ameliorate the performance of LA-Transformers on the task of person reidentification. In addition, we apply data-efficient training methods to further enhance and improve the efficacy of the person re-identification model.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Guillaume-Alexandre Bilodeau et Wassim Bouachir
URL de PolyPublie: https://publications.polymtl.ca/10753/
Université/École: Polytechnique Montréal
Date du dépôt: 17 juil. 2023 11:45
Dernière modification: 30 sept. 2024 05:45
Citer en APA 7: Wang, D. (2022). Transformers with Convolutional Methods for Person Re-Identification [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10753/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document