Generalizing in the Real World with Representation Learning

Tegan Maharaj

Thèse de doctorat (2022)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (8MB)

Afficher le résumé

Cacher le résumé

Résumé

L'apprentissage automatique formalise le problème de faire en sorte que les ordinateurs peuvent apprendre d'expériences comme optimiser la performance mesurée avec une ou des métriques sur une tache définie pour un ensemble de données. Cela contraste avec l'exigence d'un comportement déterminé en avance (c.-à-d. par règles). La formalisation de ce problème a permis de grands progrès dans de nombreuses applications ayant un impact important dans le monde réel, notamment la traduction, la reconnaissance vocale, les voitures autonomes et la découverte de médicaments. Cependant, les instanciations pratiques de ce formalisme font de nombreuses hypothèses non-realiste pour les données réels - par exemple, que les données sont indépendantes et identiquement distribuées (i.i.d.) - dont la solidité est rarement étudiée. En réalisant de grands progrès en si peu de temps, le domaine a développé de nombreuses normes et standards ad hoc, axés sur une gamme de taches relativement restreinte. Alors que les applications d'apprentissage automatique, en particulier dans les systèmes d'intelligence artificielle, deviennent de plus en plus répandues dans le monde réel, nous devons examiner de manière critique ces normes et hypothèses. Il y a beaucoup de choses que nous ne comprenons toujours pas sur comment et pourquoi les réseaux profonds entraînés avec la descente de gradient sont capables de généraliser aussi bien qu'ils le font, pourquoi ils échouent quand ils le font et comment ils fonctionnent sur des données hors distribution. Dans cette thèse, je couvre certains de mes travaux visant à mieux comprendre la généralisation de réseaux profonds, j'identifie plusieurs façons dont les hypothèses et les problèmes rencontrés ne parviennent pas à se généraliser au monde réel, et je propose des moyens de remédier à ces échecs dans la pratique.

Abstract

Machine learning (ML) formalizes the problem of getting computers to learn from experience as optimization of performance according to some metric(s) on a set of data examples. This is in contrast to requiring behaviour specified in advance (e.g. by hard-coded rules). Formalization of this problem has enabled great progress in many applications with large real-world impact, including translation, speech recognition, self-driving cars, and drug discovery. But practical instantiations of this formalism make many assumptions - for example, that data are i.i.d.: independent and identically distributed - whose soundness is seldom investigated. And in making great progress in such a short time, the field has developed many norms and ad-hoc standards, focused on a relatively small range of problem settings. As applications of ML, particularly in artificial intelligence (AI) systems, become more pervasive in the real world, we need to critically examine these assumptions, norms, and problem settings, as well as the methods that have become de-facto standards. There is much we still do not understand about how and why deep networks trained with stochastic gradient descent are able to generalize as well as they do, why they fail when they do, and how they will perform on out-of-distribution data. In this thesis I cover some of my work towards better understanding deep net generalization, identify several ways assumptions and problem settings fail to generalize to the real world, and propose ways to address those failures in practice.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Christopher J. Pal
URL de PolyPublie:	https://publications.polymtl.ca/10497/
Université/École:	Polytechnique Montréal
Date du dépôt:	06 févr. 2023 15:09
Dernière modification:	26 sept. 2024 14:17

Citer en APA 7:	Maharaj, T. (2022). Generalizing in the Real World with Representation Learning [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10497/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document