<  Retour au portail Polytechnique Montréal

Controllable Realistic Simulation and Video Generation for Autonomous Vehicles in Safety-Critical Scenarios

Anthony Gosselin

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (29MB)
Afficher le résumé
Cacher le résumé

Résumé

Assurer la sécurité des véhicules autonomes (VA) nécessite de les tester sur un large éven-tail de scénarios, y compris des événements rares et dangereux tels que les collisions. La collecte de telles données dans le monde réel est dangereuse, coûteuse et intrinsèquement limitée en diversité. Les simulateurs traditionnels offrent contrôle et réalisme physique, mais requièrent une création manuelle importante d’éléments visuels et peinent encore à repro-duire la diversité et le réalisme visuel des images réelles de conduite. Cette thèse explore la simulation fondée sur les données à l’aide de modèles de diffusion vidéo génératifs, capables de synthétiser des vidéos de conduite photoréalistes et temporellement cohérentes avec un effort humain minimal, offrant ainsi une alternative évolutive et contrôlable pour les tests de sécurité des VA. Pour commencer, on présente la simulation contrôlable en vue de dessus (bird’s-eye view ou BEV) pour la modélisation de comportements de véhicules à haut niveau. Deux contributions antérieures, CtRL-Sim et Scenario Dreamer, permettent la génération de comportements de conduite multi-agents et de réseaux routiers complets en BEV. Bien que puissants pour la création de scénarios, les environnements BEV manquent le niveau de détail visuel néces-saire pour tester les systèmes de perception ou produire des vidéos réalistes d’accidents. Pour combler ces lacunes, la thèse présente la méthode BEV2POV, qui traduit des simula-tions BEV structurées en vidéos du point de vue du conducteur. Au cœur de ce système se trouve Ctrl-V, un modèle de diffusion vidéo contrôlable capable de générer des scènes de conduite structurées à partir de trajectoires de boîtes englobantes. Sur cette base, la contribution principale, Ctrl-Crash, étend l’approche pour générer des scénarios d’accidents réalistes et contrôlables. Ctrl-Crash prend en entrée une scène initiale, les trajectoires des agents et un type d’accident, puis produit des vidéos haute fidélité alignées à la fois avec les conditions d’entrée et avec une dynamique physique plausible. Les résultats montrent que Ctrl-Crash surpasse systématiquement les modèles de génération d’accidents par diffusion existants et prend en charge la génération de scénarios contrefactuels, produisant plusieurs issues plausibles à partir des mêmes conditions initiales. La thèse se conclut par une discussion des limitations et des perspectives de recherche futures dans le domaine de la simulation neuronale pour les VA. Dans leur ensemble, ces contributions font progresser le développement d’outils de simulation réalistes, contrôlables et évolutifs pour la recherche sur les scénarios critiques pour la sécurité des véhicules autonomes.

Abstract

Ensuring the safety of autonomous vehicles (AVs) requires testing across a wide range of scenarios, including rare and dangerous events such as collisions. Collecting such data in the real world is unsafe, costly, and inherently limited in diversity. Traditional physics-based simulators provide control and physical realism but require extensive manual asset creation and still fall short of matching the visual diversity and realism of real-world driving footage. This thesis explores data-driven simulation using generative video diffusion models, which can synthesize photorealistic, temporally consistent driving videos with minimal human effort, offering a scalable and controllable alternative for AV safety testing. The work begins with controllable bird’s-eye view (BEV) simulation for high-level traffic behavior modeling. Two prior contributions, CtRL-Sim and Scenario Dreamer, enable the generation of multi-agent driving behaviors and entire traffic environments in BEV. While powerful for scenario creation, BEV lacks the visual detail needed to test perception systems or produce realistic crash footage. To bridge this gap, the thesis introduces the BEV2POV framework, which translates structured BEV simulations into driver’s-view videos. At its core is Ctrl-V, a controllable video diffusion model capable of generating structured driving scenes from bounding box trajectories. Building on this, the main contribution, Ctrl-Crash, extends the approach to generate realistic and controllable crash scenarios. Ctrl-Crash ac-cepts an initial scene, agent trajectories, and a semantic crash type, producing high-fidelity videos aligned with both the input conditions and plausible physical dynamics. Results show that Ctrl-Crash consistently outperforms prior diffusion-based crash generation models and supports counterfactual scenario generation, producing multiple plausible outcomes from the same starting conditions. The thesis concludes by discussing limitations and outlining future research directions in the field of AV neural simulation. Together, these contributions advance the development of realistic, controllable, and scalable simulation tools for safety-critical AV research.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Christopher J. Pal
URL de PolyPublie: https://publications.polymtl.ca/68994/
Université/École: Polytechnique Montréal
Date du dépôt: 10 févr. 2026 13:31
Dernière modification: 10 févr. 2026 13:39
Citer en APA 7: Gosselin, A. (2025). Controllable Realistic Simulation and Video Generation for Autonomous Vehicles in Safety-Critical Scenarios [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/68994/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document