From Temporal Coherence to Cross-Modal Intelligence: A Modular Framework for Video Object Detection

Noreen Anwar

Thèse de doctorat (2025)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (36MB)

Afficher le résumé

Cacher le résumé

Résumé

a détection d’objets dans les vidéos est un problème fondamental en vision par ordinateur, avec des applications dont la conduite autonome, la surveillance intelligente, la robotique et l’interaction humain-machine. Malgré les avancées réalisées en détection d’objets sur des images statiques grâce aux réseaux de neurones profonds et aux architectures de type auto-attentive, l’extension de ces capacités aux séquences vidéo demeure un défi de taille. Cela s’explique par la diversité des perturbations visuelles et environnementales, telles que l’occultation d’objets, les mouvements rapides, la présence de distracteurs, les variations d’éclairage et les changements de pose des objets articulés. Dans cette thèse, la robustesse désigne la capacité d’un détecteur à conserver des prédictions précises et temporellement cohérentes malgré ces perturbations, et non seulement sur des images propres et bien cadrées. Cette thèse propose de nouvelles stratégies et architectures pour améliorer la performance de la détection d’objets dans les vidéos en conditions réelles et non contraintes. L’objectif est de répondre aux principaux défis de la détection en exploitant la cohérence spatio-temporelle, la mémoire visuelle et la compréhension contextuelle multimodale. Nos travaux introduisent à la fois des méthodes de détection complètes et des mécanismes modulaires pouvant être intégrés dans de futurs pipelines de détection. Dans un premier temps, nous proposons STF (Spatio-Temporal Fusion), une approche de dé-tection qui fusionne l’attention multi-images avec les caractéristiques visuelles extraites trame par trame, permettant une détection robuste malgré l’occultation, le flou de mouvement et les changements de point de vue. STF améliore la continuité temporelle en intégrant des in-dices issus des images voisines à l’aide de stratégies d’attention adaptatives. Des expériences approfondies menées sur les ensembles de données KITTI [1], Cityscapes [2] et VisDrone [3] montrent que STF améliore la précision et la stabilité temporelle dans des conditions bruitées et dynamiques. Ensuite, nous avons développé LAQEM (Language-Augmented Query Evolution with Mem-ory), qui intègre des informations sémantiques textuelles dans le processus de génération des requêtes visuelles. LAQEM utilise une mémoire dynamique pour conserver les informations visuelles sémantiques pertinentes au fil du temps, ce qui améliore la capacité du système à détecter des objets rares ou inconnus dans des scènes complexes. Cette méthode comble ainsi l’écart de signification entre les caractéristiques visuelles et les indices linguistiques, favorisant une détection plus généralisable et sémantiquement robuste. Enfin, nous présentons DAMM (Dual Attention with Multimodal Memory), un modèle qui réalise une fusion structurée entre le contexte visuel courant et une mémoire multimodale à long terme via un mécanisme d’attention croisée. DAMM gère efficacement les variations d’apparence et les scènes ambiguës en réutilisant les indices historiques et les représentations sémantiques. Il permet une inférence fiable même dans les cas de réapparition après une longue occultation ou une sortie du champ de vision. Les modèles proposés sont évalués de manière exhaustive sur des jeux de données de référence, et démontrent des performances supérieures en termes de précision moyenne (mAP), de cohérence temporelle et d’efficacité d’inférence. Les résultats expérimentaux confirment que nos nouvelles méthodes fondées sur la mémoire et la multimodalité représentent une avancée significative par rapport aux techniques de pointe actuelles. Par ailleurs, nous montrons que la visibilité partielle suffit souvent à assurer la récupération des objets dans des scénarios complexes, ce qui illustre la robustesse de nos approches face à l’occultation, au flou de mouvement et à la déformation structurelle.

Abstract

Video object detection is a fundamental problem in computer vision with applications in autonomous driving, intelligent surveillance, robotics, and human–machine interaction. De-spite the progress made in static image detection using deep learning and transformer-based architectures, extending these capabilities to videos remains a significant challenge. This is due to a variety of environmental and visual perturbations, including object occlusion, rapid motion, distractors, dynamic lighting, and articulated pose changes. In this thesis, robustness refers to the ability of a detector to maintain accurate and temporally consistent predictions under such challenging conditions, rather than only on clean, well-framed images. This thesis presents novel strategies and architectures to enhance video object detection performance in unconstrained, real-world conditions. The goal is to address the primary de-tection challenges by leveraging spatio-temporal consistency, visual memory, and multimodal contextual understanding. Our work introduces complete detection frameworks as well as modular mechanisms that can be integrated into future detection pipelines. First, we propose STF (Spatio-Temporal Fusion), a detection framework that fuses multi-frame attention with frame-wise object features, enabling robust detection under occlusion, motion blur, and viewpoint changes. STF improves temporal continuity by integrating cues from neighbouring frames using adaptive attention strategies. Through extensive experiments on KITTI [1], Cityscapes [2], and VisDrone [3], STF demonstrates improved accuracy and temporal stability under noisy and dynamically changing conditions. Second, we develop LAQEM (Language-Augmented Query Evolution with Memory), which incorporates text-based semantic priors into the visual query generation process. LAQEM uses dynamic memory to retain relevant visual–semantic information across frames, improv-ing the system’s ability to detect unseen or rare objects in challenging scenes. This framework bridges the gap between visual features and linguistic cues, enabling more generalizable and semantically robust detection. Third, we present DAMM (Dual Attention with Multimodal Memory), a model that performs structured fusion between the current visual context and long-term multimodal memory using cross-attention. DAMM effectively handles appearance variations and ambiguous scenes by reusing historical cues and semantic embeddings. It supports reliable inference even in cases of reappearance after long occlusion or field-of-view exit. The proposed models are extensively evaluated on standard video benchmarks, showing superior performance in terms of mean Average Precision (mAP), temporal consistency, and inference efficiency. Experimental results confirm that our memory-aware and multimodal detection designs provide a significant advancement over state-of-the-art techniques in real-istic settings. Furthermore, we show that partial visibility is sufficient for recovery in many challenging scenarios, demonstrating the strength of our approaches under occlusion, motion blur, and structural deformation.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Guillaume-Alexandre Bilodeau et Wassim Bouachir
URL de PolyPublie:	https://publications.polymtl.ca/70225/
Université/École:	Polytechnique Montréal
Date du dépôt:	10 févr. 2026 10:52
Dernière modification:	10 févr. 2026 11:44

Citer en APA 7:	Anwar, N. (2025). From Temporal Coherence to Cross-Modal Intelligence: A Modular Framework for Video Object Detection [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/70225/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document