<  Back to the Polytechnique Montréal portal

Generalizing in the Real World with Representation Learning

Tegan Maharaj

Ph.D. thesis (2022)

[img] Restricted to: Repository staff only until 6 February 2024
Terms of Use: All rights reserved
Show abstract
Hide abstract

Abstract

Machine learning (ML) formalizes the problem of getting computers to learn from experience as optimization of performance according to some metric(s) on a set of data examples. This is in contrast to requiring behaviour specified in advance (e.g. by hard-coded rules). Formalization of this problem has enabled great progress in many applications with large real-world impact, including translation, speech recognition, self-driving cars, and drug discovery. But practical instantiations of this formalism make many assumptions - for example, that data are i.i.d.: independent and identically distributed - whose soundness is seldom investigated. And in making great progress in such a short time, the field has developed many norms and ad-hoc standards, focused on a relatively small range of problem settings. As applications of ML, particularly in artificial intelligence (AI) systems, become more pervasive in the real world, we need to critically examine these assumptions, norms, and problem settings, as well as the methods that have become de-facto standards. There is much we still do not understand about how and why deep networks trained with stochastic gradient descent are able to generalize as well as they do, why they fail when they do, and how they will perform on out-of-distribution data. In this thesis I cover some of my work towards better understanding deep net generalization, identify several ways assumptions and problem settings fail to generalize to the real world, and propose ways to address those failures in practice.

Résumé

L'apprentissage automatique formalise le problème de faire en sorte que les ordinateurs peuvent apprendre d'expériences comme optimiser la performance mesurée avec une ou des métriques sur une tache définie pour un ensemble de données. Cela contraste avec l'exigence d'un comportement déterminé en avance (c.-à-d. par règles). La formalisation de ce problème a permis de grands progrès dans de nombreuses applications ayant un impact important dans le monde réel, notamment la traduction, la reconnaissance vocale, les voitures autonomes et la découverte de médicaments. Cependant, les instanciations pratiques de ce formalisme font de nombreuses hypothèses non-realiste pour les données réels - par exemple, que les données sont indépendantes et identiquement distribuées (i.i.d.) - dont la solidité est rarement étudiée. En réalisant de grands progrès en si peu de temps, le domaine a développé de nombreuses normes et standards ad hoc, axés sur une gamme de taches relativement restreinte. Alors que les applications d'apprentissage automatique, en particulier dans les systèmes d'intelligence artificielle, deviennent de plus en plus répandues dans le monde réel, nous devons examiner de manière critique ces normes et hypothèses. Il y a beaucoup de choses que nous ne comprenons toujours pas sur comment et pourquoi les réseaux profonds entraînés avec la descente de gradient sont capables de généraliser aussi bien qu'ils le font, pourquoi ils échouent quand ils le font et comment ils fonctionnent sur des données hors distribution. Dans cette thèse, je couvre certains de mes travaux visant à mieux comprendre la généralisation de réseaux profonds, j'identifie plusieurs façons dont les hypothèses et les problèmes rencontrés ne parviennent pas à se généraliser au monde réel, et je propose des moyens de remédier à ces échecs dans la pratique.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Christopher J. Pal
PolyPublie URL: https://publications.polymtl.ca/10497/
Institution: Polytechnique Montréal
Date Deposited: 06 Feb 2023 15:09
Last Modified: 13 Feb 2023 12:00
Cite in APA 7: Maharaj, T. (2022). Generalizing in the Real World with Representation Learning [Ph.D. thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10497/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item