<  Retour au portail Polytechnique Montréal

Video Future Frames Prediction by Deep Generative Models

Xi Ye

Thèse de doctorat (2024)

[img] Accès restreint: Personnel autorisé jusqu'au 24 février 2026
Conditions d'utilisation: Tous droits réservés
Afficher le résumé
Cacher le résumé

Résumé

Des efforts considérables ont été investis dans le développement des systèmes intelligents pour la prédiction des images futures d’une vidéo, car il s’agit d’un problème fondamental et extrêmement complexe de recherche en vision par ordinateur. La prédiction des images futures d’une vidéo revêt une importance cruciale dans le développement d’agents intelligents basés sur la vision par ordinateur pour des tâches telles que la navigation robotique, la conception de systèmes de contrôle, la planification d’itinéraires, l’apprentissage par renforcement basé sur les modèles, etc. Notamment, la prédiction des images futures d’une vidéo gagne en popularité récemment en tant que méthode d’apprentissage de représentation auto-supervisée et méthode de génération de contenu vidéo pour l’industrie du divertissement. Prédire les images futures dans les vidéos pose d’importants défis en raison de divers facteurs, tels que la difficulté à apprendre des représentations à partir de données vidéo de haute dimension et à aborder la stochasticité inhérente des événements futurs lors de la prédiction. Dans cette thèse, nous présentons une série de méthodes utilisant des modèles génératifs profonds pour relever les défis non résolus de la prédiction des images futures d’une vidéo, par exemple le besoin de modèles évolutifs et efficaces pour l’apprentissage des caractéristiques vidéo de haute dimension, le besoin de modèles génératifs plus expressifs pour une meilleure prédiction stochastique et une prédiction continue temporelle. La première méthode introduit un modèle efficace basé sur les Transformers (réseaux autoattentifs) pour la prédiction des images futures d’une vidéo. Pour surmonter les inconvénients des techniques de modélisation spatio-temporelle existantes, un encodeur CNN comprime d’abord les images vidéo d’entrée dans un espace latent de plus basse résolution. Ensuite, une nouvelle famille de modèles de prédiction basés sur les Transformers est utilisée pour prédire les représentations des images futures dans cet espace latent. Enfin, un décodeur CNN reconstruit les images futures sur la base des représentations prédites. Notamment, ces prédicteurs basés sur les Transformers sont construits en utilisant un bloc Transformer personnalisé conçu spécifiquement pour l’apprentissage de représentations vidéos. Ce bloc utilise une attention de séparation spatio-temporelle locale pour réduire la complexité computationnelle inhérente aux blocs Transformers standards. Nos modèles de prédiction des images futures d’une vidéo basés sur les Transformers atteignent des performances comparables à celles des réseaux de mémoire à court terme convolutifs (LSTM) plus complexes, et le modèle non-autorégressif réduit significativement les erreurs accumulées dans la prédiction des images futures de vidéos. Le deuxième travail introduit un modèle d’apprentissage multi-tâches unifié pour la synthèse vidéo conditionnelle continue, abordant simultanément des tâches telles que la prédiction des images futures d’une vidéo et l’interpolation d’images d’une vidéo. Initialement, les images vidéo d’entrée sont compressées à l’aide d’un encodeur CNN amélioré par auto-attention, suivi d’un prédicteur Transformer non-autorégressif pour générer des représentations d’images cibles et d’un décodeur CNN pour la reconstruction des images futures. Notamment, ce travail reformule la prédiction vidéo comme un processus neuronal, cartographiant les coordonnées spatio-temporelles sur les valeurs de pixels conditionnées par les images contextuelles et les coordonnées, exploitant l’invariance aux permutations des processus neuronaux pour effectuer plusieurs tâches de synthèse d’images conditionnées avec un seul modèle. De plus, un VAE aborde la stochasticité au niveau de la séquence, permettant une prédiction vidéo stochastique. De plus, contrairement aux méthodes traditionnelles limitées à la prédiction discrète d’images, ce modèle réalise une prédiction continue temporelle grâce à une représentation neuronale implicite. Notre modèle dépasse les performances des modèles précédents en matière d’interpolation d’images vidéo et de prédiction continue des images futures d’une vidéo. Le troisième travail propose un modèle de diffusion spatio-temporelle pour améliorer l’expressivité des modèles stochastiques de prédiction des images futures d’une vidéo et ainsi augmenter la diversité de la prédiction stochastique. Il décompose d’abord le mouvement vidéo et les informations de contenu passées, agrégeant le mouvement passé via un réseau récurrent convolutif à portes et prédisant les caractéristiques de mouvement futures à l’aide d’une équation différentielle stochastique neuronale. Les images vidéo futures sont générées de manière autorégressive par un modèle de diffusion d’images conditionné par les caractéristiques de mouvement prédites et l’image précédente. Bénéficiant d’une plus grande expressivité, notre modèle de diffusion spatio-temporelle démontre des performances de pointe en termes de qualité visuelle des vidéos prédites et de diversité sur plusieurs ensembles de données. En résumé, cette thèse présente une série de méthodes utilisant des modèles génératifs profonds pour la prédiction des futures images vidéo, en abordant des défis tels que l’apprentissage efficace de caractéristiques spatio-temporelles de haute dimension, la prédiction continue et l’amélioration de la diversité des prédictions stochastiques.

Abstract

Significant efforts have been invested in developing intelligent systems for video future frames prediction, because it is a fundamental while extremely challenging computer vision research problem. Video future frames prediction holds critical importance in developing computer vision-based intelligent agents for tasks like robot navigation, control system design, route planning, model-based reinforcement learning, etc. Notably, video future frames prediction is gaining traction recently as a self-supervised representation learning method and video content generation method for the entertainment industry. Predicting future frames in videos poses significant challenges due to various factors, such as the difficulty involved in learning representations from high-dimensional video data and addressing the inherent stochasticity of future events during prediction. In this thesis, we present a series of methods utilizing deep generative models to tackle the unsolved challenges of video future frames prediction, e.g., scalable and efficient model for high dimensional video feature learning, more expressive generative model for better stochastic prediction and temporal continuous prediction. The first method introduces an efficient Transformer-based model for video future frames prediction. To overcome the drawbacks of previous spatio-temporal modeling techniques, a CNN encoder firstly compresses input video frames to a lower-resolution latent space. Subsequently, a novel family of Transformer-based prediction models is employed to predict future frame representations within this latent space. Finally, a CNN decoder reconstructs the future frames based on the predicted representations. Notably, these Transformer-based predictors are constructed using a custom Transformer block designed specifically for video representation learning. This block utilizes local spatial-temporal separation attention to reduce the computational complexity inherent in standard Transformer blocks. Our Transformers-based video future frames prediction models achieve performance comparable to more complex convolutional long short-term memory networks, and the non-autoregressive model significantly reduces accumulated errors in video future frames prediction. The second work introduces a unified multi-task learning model for continuous conditional video synthesis, simultaneously addressing tasks like video future frames prediction and frame interpolation. Initially, input video frames are compressed using a self-attention enhanced CNN encoder, followed by a non-autoregressive Transformer predictor to generate target frame representations and a CNN decoder for future frames reconstruction. Notably, this work reframes video prediction as a neural process, mapping to pixel values conditioned on context frames and coordinates, leveraging the permutation invariance of neural processes to perform multiple conditioning frame synthesis tasks with a single model. Additionally, a VAE addresses sequence-level stochasticity, enabling stochastic video prediction. Crucially, unlike traditional methods limited to discrete frame prediction, this model achieves temporal continuous prediction through an implicit neural representation. Our model surpasses the performance of previous models in video frames interpolation and continuous video future frames prediction. The third work proposes a spatio-temporal diffusion model to enhance the expressiveness of stochastic video future frames prediction models and thus increase the diversity of stochastic prediction. It firstly decomposes past video motion and content information, aggregating past motion via an efficient convolutional gated recurrent unit network and predicting future motion features using a neural stochasitc differential equation. Future video frames are generated autoregressively by an image diffusion model conditioned on predicted motion features and the previous frame. Benefiting from a greater expressiveness, our spatio-temporal diffusion model demonstrates the state-of-the-art performance in terms of predicted video visual quality and diversity across multiple datasets. In summary, this thesis presents a series of methods utilizing deep generative models for video future frames prediction, addressing challenges such as efficient high dimensional spatiotemporal feature learning, continuous prediction, and enhancing the diversity of stochastic predictions.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Guillaume-Alexandre Bilodeau
URL de PolyPublie: https://publications.polymtl.ca/58734/
Université/École: Polytechnique Montréal
Date du dépôt: 24 févr. 2025 14:15
Dernière modification: 08 août 2025 12:00
Citer en APA 7: Ye, X. (2024). Video Future Frames Prediction by Deep Generative Models [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/58734/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document