Mémoire de maîtrise (2022)
Document en libre accès dans PolyPublie |
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (9MB) |
Résumé
Ce mémoire présente plusieurs nouvelles méthodes pour estimer la disparité des silhouettes humaines dans une scène à l'aide d'une paire d'images stéréoscopiques du spectre infrarouge thermique et du spectre couleur. Le défi ce problème est de faire correspondre des sous-régions d'images qui ne partagent pas la même information. En effet, le spectre infrarouge thermique et RGB ont quelques informations en commun, telles que les formes générales des silhouettes, mais la principale source d'information du spectre RGB est manquante dans les images infrarouges thermiques (LWIR), soit la couleur. Des méthodes ont été proposées dans des précédents travaux pour résoudre ce problème, mais nous voulons appliquer de connaissances plus récentes pour améliorer les résultats. Trois grandes idées forment notre méthodologie. La première idée a été d'ajouter les masques de segmentation aux sous-régions d'entrée de notre réseau. Le réseau va donc connaître le contexte de la sous-région pour la comparer à la sousrégion de l'autre spectre. Le réseau va donc savoir si la sous-région appartient à une instance ou non, et verra si une frontière est présente. La deuxième idée est de modifier l'architecture de l'extracteur de caractéristiques afin d'opter pour une solution plus moderne. Nous avons donc remplacer les deux RNCs du réseau pseudo-siamois par HRNet. HRNet est un extracteur de caractéristique gardant la même résolution tout au long de l'extraction des caractéristiques. Ceci permet donc d'avoir des cartes de caractéristiques avec le plus grand nombre de détails possible. Dans cette même idée, nous avons dû adapter le réseau HRNet étant donné que nous l'utilisons sur des entrées de 36×36, et que l'architecture est initialement faite pour des images de plus grande taille. Nous avons ensuite modifié la sortie de l'architecture HRNet, pour encore une fois garder le plus de caractéristiques possibles. La dernière idée apportée dans ce mémoire a été de combiner les deux premières idées ensemble pour introduire les masques dans le réseau HRNet. Les deux premières idées prises séparément ont donné de très bons résultats. Par contre, la combinaison des deux a donné des résultats peu concluants, mais il était bon de faire l'étude pour prouver l'efficacité des masques selon l'extracteur de caractéristiques. Pour l'ensemble des méthodes présentées, la tête du réseau reste inchangée. La tête qui est présentée est constituée de deux branches avec un fonctionnement identique. Il y a une branche de concaténation et une branche de corrélation. Le principe de ces branches est le suivant. L'opération de fusion est faite sur les deux vecteurs de caractéristiques sortant des extracteurs. Ensuite le vecteur résultant de cette opération de fusion est passé dans un réseau pleinement connecté qui déterminera l'estimation de disparité pour la branche donnée. L'estimation finale sera donnée par la moyenne de ces deux estimations de disparité. Avec ces méthodes, nous avons été capables de générer des résultats qui dépassent l'état de l'art.
Abstract
This work will presents several methods to estimate the disparity between human silhouettes using RGB and infrared images. The main goal of this master thesis is to match two stereo patches from two different spectrum. Between a RGB and a thermal image, there is not much shared information, except from the shapes of the humans in the scene. Methods were proposed for this problem, but we want to improve the solution by bringing new ideas from recent work. This work presents three proposed ideas that we have implemented. The first idea consists of concatenating segmentation masks to the input patches of the network. The network can know the context of the patch using the masks. The goal of the patch is to identify the boundary in the image. The second idea is to modify the architecture to change the feature extractor for a modern one. We will replace both CNNs in the pseudo-siamese network with an HRNet backbone. We chose HRNet because it is a feature extractor that keeps a high resolution feature map across all the network. The output has a lot of information, and is the same size as the original input patch. Because the HRNet backbone was not designed for 36×36 images, we had to adapt it to fit this input size. We removed the smallest sub-sampling which was too small for such a small input patch. When HRNet was adapted to our network, we then modified the output to see if the result could be improved by concatenating the last high resolution layer of every stage. The last idea was to take this modified pseudo-siamese HRNet network and mix it with the first idea of introducing masks in the network. We obtained very good results by applying separately both ideas. However, the combination of both did not give convincing results, but it was a good study to see the efficiency of the masks with a high resolution feature extractor. For every method presented, the head of the network stayed the same. The head of the network was made of two branches. One concatenation branch and one correlation branch. A branch takes the output of the fusion operation and passed it to a fully connected layer to output the estimated disparity. The final disparity is given by the mean of both branches.
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Guillaume-Alexandre Bilodeau |
URL de PolyPublie: | https://publications.polymtl.ca/10477/ |
Université/École: | Polytechnique Montréal |
Date du dépôt: | 06 févr. 2023 14:46 |
Dernière modification: | 28 sept. 2024 12:18 |
Citer en APA 7: | Duplessis-Guindon, P. (2022). Méthodes d'apprentissage profond pour l'estimation de disparités d'une paire d'images multispectrale [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10477/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements