<  Back to the Polytechnique Montréal portal

From "What" to "Why": Towards Causal Deep Learning

Nan Ke

Ph.D. thesis (2023)

[img] Restricted to: Repository staff only until 11 December 2024
Terms of Use: All rights reserved
Show abstract
Hide abstract

Abstract

Deep learning has shown impressive progress in various fields, such as reinforcement learning, natural language processing, image generation, and text-to-image generation. However, these models can still struggle with out-of-distribution (OOD) generalization, where the test data differs from the training data. Credit assignment and causal correctness are key ingredients that can help improve OOD generalization. Credit assignment involves identifying the responsible factors for an outcome, while causal correctness entails an accurate understanding of cause-and-effect relationships. These two factors can reinforce each other and enable efficient model refinement. This thesis focuses on improving the ability of deep learning models to generalize effectively and perform well in real-world scenarios by improving credit assignments and exploring the intersection of causality and deep learning. One research direction involves improving credit assignment for long sequences by assigning credit sparsely to past events, which is similar to how humans attribute credit. The resulting sequence model performs significantly better in OOD generalization.

Résumé

L’apprentissage profond a mené à beaucoup de progrès dans plusieurs disciplines, telles l’apprentissage par renforcement, le traitement du language naturel et la génération d’images, particulièment à partir d’instructions en language naturel. Mais les modèles dits profonds ont souvent de la difficulté à generaliser hors de leur distribution d’entraînement – quand les données-test diffèrent des données d’entraînement. L’attribution de crédit et l’exactitude causale sont des éléments-clé pour améliorer la généralisation. L’attribution de crédit implique une identification correcte des facteurs responsables d’un résultat, alors que l’exactitude causale implique une compréhension correcte des causes et effets. Ces deux éléments se renforcent l’un l’autre et ouvrent la voie à un raffinement efficace de modèles profonds. Cette thèse porte sur l’amélioration de la généralisation dans les modèles d’apprentissage profonds et donc de leur performance dans les scénarios non prévus du monde réel en perfectionnant leur attribution du crédit et en explorant l’intersection de la causalité et de l’apprentissage approfondi. Une de ces améliorations est de permettre une attribution de crédit «creuse» (sparse) et non «dense» aux facteurs responsables d’un résultat lors du traitement d’une longue séquence de données. Ceci est plus semblable aux mécanismes d’attribution de crédits temporelle de l’être humain, même sur des durées allongées. Cela mène à un modèle profond pour traitement de séquences plus apte à géneraliser hors de sa distribution d’entraînement.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Christopher J. Pal and Yoshua Bengio
PolyPublie URL: https://publications.polymtl.ca/53454/
Institution: Polytechnique Montréal
Date Deposited: 11 Dec 2023 08:54
Last Modified: 13 Apr 2024 06:03
Cite in APA 7: Ke, N. (2023). From "What" to "Why": Towards Causal Deep Learning [Ph.D. thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/53454/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item