From "What" to "Why": Towards Causal Deep Learning

Thèse de doctorat (2023)

Accès restreint: Personnel autorisé jusqu'au 11 décembre 2024
Conditions d'utilisation: Tous droits réservés

Résumé

L’apprentissage profond a mené à beaucoup de progrès dans plusieurs disciplines, telles l’apprentissage par renforcement, le traitement du language naturel et la génération d’images, particulièment à partir d’instructions en language naturel. Mais les modèles dits profonds ont souvent de la difficulté à generaliser hors de leur distribution d’entraînement – quand les données-test diffèrent des données d’entraînement. L’attribution de crédit et l’exactitude causale sont des éléments-clé pour améliorer la généralisation. L’attribution de crédit implique une identification correcte des facteurs responsables d’un résultat, alors que l’exactitude causale implique une compréhension correcte des causes et effets. Ces deux éléments se renforcent l’un l’autre et ouvrent la voie à un raffinement efficace de modèles profonds. Cette thèse porte sur l’amélioration de la généralisation dans les modèles d’apprentissage profonds et donc de leur performance dans les scénarios non prévus du monde réel en perfectionnant leur attribution du crédit et en explorant l’intersection de la causalité et de l’apprentissage approfondi. Une de ces améliorations est de permettre une attribution de crédit «creuse» (sparse) et non «dense» aux facteurs responsables d’un résultat lors du traitement d’une longue séquence de données. Ceci est plus semblable aux mécanismes d’attribution de crédits temporelle de l’être humain, même sur des durées allongées. Cela mène à un modèle profond pour traitement de séquences plus apte à géneraliser hors de sa distribution d’entraînement.

Abstract

Deep learning has shown impressive progress in various fields, such as reinforcement learning, natural language processing, image generation, and text-to-image generation. However, these models can still struggle with out-of-distribution (OOD) generalization, where the test data differs from the training data. Credit assignment and causal correctness are key ingredients that can help improve OOD generalization. Credit assignment involves identifying the responsible factors for an outcome, while causal correctness entails an accurate understanding of cause-and-effect relationships. These two factors can reinforce each other and enable efficient model refinement. This thesis focuses on improving the ability of deep learning models to generalize effectively and perform well in real-world scenarios by improving credit assignments and exploring the intersection of causality and deep learning. One research direction involves improving credit assignment for long sequences by assigning credit sparsely to past events, which is similar to how humans attribute credit. The resulting sequence model performs significantly better in OOD generalization.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Christopher J. Pal et Yoshua Bengio
URL de PolyPublie:	https://publications.polymtl.ca/53454/
Université/École:	Polytechnique Montréal
Date du dépôt:	11 déc. 2023 08:54
Dernière modification:	13 avr. 2024 06:03

Citer en APA 7:	Ke, N. (2023). From "What" to "Why": Towards Causal Deep Learning [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/53454/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document