Spending Capacity Where It Matters: Selection, Adaptation, Interaction, and Structure for Efficient Language Understanding and Generation

Jonathan Pilault

Thèse de doctorat (2025)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (9MB)

Afficher le résumé

Cacher le résumé

Résumé

Cette thèse adopte une approche programmatique visant à amener les grands modèles de langage à consacrer leur capacité là où celle-ci est la plus utile. Nous étudions quatre axes, chacun répondant à une contrainte pratique moderne du traitement automatique des langues, et proposons des conceptions qui, mises ensemble, tracent un chemin cohérent allant de la structuration des entrées à la structuration architecturale. Dans le Chapitre 2, pour le résumé de documents longs, nous plaçons en amont du générateur Transformer une étape de sélection légère et contrainte, montrant que le conditionnement sur une esquisse compacte favorise une abstraction véritable plutôt que la copie de surface, sur des évaluations de longs textes telles que arXiv, PubMed, Newsroom et BigPatent. Dans le Chapitre 3, pour l’apprentissage multi-tâches économe en paramètres, nous figeons la majeure partie des poids du modèle et entraînons de petits modules d’adaptation conditionnés par la tâche, jumelée à une politique d’échantillonnage explicite qui priorise les tâches selon la taille du jeu de données et l’incertitude prédictive (pondérée par l’incertitude) à budget de poids entraînés contraints. Notre adaptateur hyperréseau multi-tâches réduit l’interférence tout en améliorant le transfert sur plusieurs jeux de référence de classification de texte et de compréhension linguistique. Dans le Chapitre 4, nous traitons l’ambiguïté inhérente à la génération linguistique qui apparaît lorsque les requêtes des utilisateurs omettent un contexte crucial. L’absence d’informations propres à l’utilisateur ou à la tâche conduit les modèles à produire des sorties plausibles mais mal alignées, ce qui dégrade la qualité et provoque souvent des reprises coûteuses. Au moyen d’évaluations ciblées en génération interlingue, nous reconcevons la génération comme l’étape finale d’une brève interaction qui pose, avant le décodage, des questions ciblées pour révéler les préférences manquantes (degré de formalité, réalisation du genre, résolution des pronoms). Conditionner le modèle sur ces clarifications l’oriente vers une réponse mieux alignée dès le premier passage, dans une courte phase d’élucidation, ce qui réduit l’incertitude sans allonger la génération. Dans le Chapitre 5, pour la modélisation linguistique à longue portée, nous présentons les Block-State Transformers, une couche hybride combinant un modèle en espace d’état, pour une propagation efficace à long horizon, et une attention par blocs, pour un mélange local sensible au contenu, offrant des compromis perplexité-mémoire favorables sur de longues fenêtres de contexte ainsi que de solides performances sur les jeux de tests Long Range Arena. Au fil des chapitres, le fil conducteur consiste à clarifier l’essentiel avant le décodage ou la prédiction - en sélectionnant, en conditionnant, en interagissant ou en hybridant - afin de concentrer la capacité préentraînée sur les parties de chaque problème qui en ont le plus besoin. Le Chapitre 6 synthétise ces axes et expose les liens avec les travaux récents ainsi que les prolongements futurs des LLM efficaces.

Abstract

This thesis takes a programmatic view of getting large language models to spend capacity where it matters. We study four settings each addressing a practical pressure in modern Natural Language Processing and report designs that, taken together, form a coherent path from input structuring to architectural structuring. In Chapter 2, for long-document summarization we place a lightweight, constrained selection step in front of a Transformer generator, showing that conditioning on a compact sketch encourages genuine abstraction over surface copying across long text evaluations such as arXiv, PubMed, Newsroom, and BigPatent. In Chapter 3, for parameter-efficient multi-task learning we keep most of the Transformer layers frozen and route task variation through small, task-conditioned adapter modules, together with an explicit sampling policy that prioritizes tasks by dataset size (temperature-scaled) and predictive uncertainty (uncertainty-weighted) under a fixed trained-parameter budget. Our multi-task hypernetwork adapter reduces interference while improving transfer on several text classification and language understanding benchmarks with minimal added capacity. In Chapter 4, we address the inherent ambiguity in language generation that arises when user queries omit crucial context. Missing user-specific or task-specific information leads models to produce plausible yet misaligned outputs, which degrades quality and often triggers costly retries or longer prompts. With specific evaluations on cross-lingual generation, we recast generation as the final step of a brief interaction that asks targeted pre-decoding questions to surface the missing preferences (formality, gender realization, pronoun resolution). Conditioning on these clarifications steers the model toward the intended output on the first pass, within a brief elicitation phase, reducing uncertainty without lengthening generation. In Chapter 5, for long-range language modeling we introduce Block-State Transformers, a hybrid layer that composes a state-space models for efficient long-horizon propagation with block-wise attention for local, content-aware mixing, yielding favorable perplexity–memory trade-offs at long context and strong performance on Long Range Arena benchmarks. Across chapters, the unifying theme is to clarify what matters before decoding or prediction by selecting, conditioning, interacting, or hybridizing so that pretrained capacity is focused on the parts of each problem that need it most. Chapter 6 synthesizes these threads and outlines links to current works and future extensions of efficient LLMs.

Département:	Département de génie informatique et génie logiciel
Programme:	génie informatique
Directeurs ou directrices:	Christopher J. Pal
URL de PolyPublie:	https://publications.polymtl.ca/71064/
Université/École:	Polytechnique Montréal
Date du dépôt:	20 févr. 2026 13:44
Dernière modification:	20 févr. 2026 16:35

Citer en APA 7:	Pilault, J. (2025). Spending Capacity Where It Matters: Selection, Adaptation, Interaction, and Structure for Efficient Language Understanding and Generation [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/71064/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document