<  Retour au portail Polytechnique Montréal

More Controllable Conditional Generative Models of Video and Data Structures for Design

Zhi Hao Luo

Thèse de doctorat (2024)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (72MB)
Afficher le résumé
Cacher le résumé

Résumé

Les modèles génératifs d’images et de texte ont captivé l’attention du public et deviennent de plus en plus importants et pertinents dans nos vies. Alors que les modèles génératifs deviennent encore plus pertinents pour résoudre des problèmes du monde réel, il devient plus important de comprendre comment contrôler ce qu’ils génèrent. Dans cette thèse, nous investiguons différentes méthodes de conditionnement et de contrôle pour les modèles génératifs de vidéo, de langage et de structures de données représentant les designs de plans de sol. Nous sommes particulièrement intéressés par le contrôle fin, où l’information au niveau pixel est utilisée pour la génération de vidéo conditionnelle et où différentes contraintes quantitatives sont fournies à un générateur de designs architecturaux. Cette thèse est organisée en trois axes de recherche. Dans le premier axe de travail, nous nous concentrons sur la génération de vidéo conditionnelle basée sur les CNN. Les modèles de génération de vidéo CNN actuels emploient une approche par blocs, ce qui signifie que les frames sont générées par blocs plutôt que une à la fois. Le bloc généré est ensuite utilisé comme conditionnement pour générer le bloc de frames suivant. Nous proposons une nouvelle façon de faire le conditionnement par bloc en le déplaçant dans l’espace de représentation latente plutôt que dans l’espace pixel pour réduire l’erreur cumulative. En outre, nous introduisons un mécanisme de mémoire ainsi qu’un réseau de mise à jour de mémoire novateur pour améliorer la qualité de la génération de séquences longues.

Abstract

Generative models for images and text have captured the public’s attention and are becoming increasingly important and relevant to our lives. As generative models become even more relevant to real world problems it becomes more important to understand how to control what they generate. In this thesis we investigate different conditioning and control methods for generative models of video, language and data structures representing the designs of floor plans. We are particularly interested in fine grained control, where pixel level information is used for conditional video generation and different types of quantitative constraints are provided to a generator of architectural designs. This thesis is organized into three lines of research. In the first line of work we focus on CNN-based conditional video generation. Current state of the art video generation CNN models employ a block-to-block approach, meaning frames are generated in blocks instead of one by one. The generated block is then used as conditioning to generate the next block of frames. We propose a novel way to do block conditioning by moving it into the latent representation space instead of the pixel space to reduce cumulative error. In addition, we introduce a memory mechanism as well as a novel memory update network to improve the quality of long sequence generation.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Christopher J. Pal
URL de PolyPublie: https://publications.polymtl.ca/62499/
Université/École: Polytechnique Montréal
Date du dépôt: 22 août 2025 09:53
Dernière modification: 22 août 2025 12:14
Citer en APA 7: Luo, Z. H. (2024). More Controllable Conditional Generative Models of Video and Data Structures for Design [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/62499/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document