Thèse de doctorat (2025)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (22MB) |
Résumé
Malgré leur succès dans de nombreux domaines, les réseaux neuronaux peinent à généraliser hors distribution. Cette thèse étudie comment les architectures modulaires et les systèmes agents peuvent répondre à ce défi, en présentant à la fois des cadres théoriques et des implémentations pratiques. À travers des systèmes de composants interagissant de manière éparse, cette recherche développe des architectures qui permettent une composition flexible et une meilleure généralisation dans des domaines allant de l’apprentissage des langages formels à l’analyse géospatiale et aux marchés de l’information. L’étude commence par une base théorique dans l’apprentissage des langages formels. À travers une analyse rigoureuse des capacités des réseaux neuronaux denses à modéliser des systèmes basés sur des règles, ce travail révèle des limitations fondamentales dans leur capacité à extrapoler au-delà des distributions d’entraînement. Cette analyse théorique met en évidence le besoin d’approches alternatives et motive le développement d’architectures modulaires et neuro-symboliques mieux adaptées à l’émulation de structures mathématiques. S’appuyant sur ces observations, cette thèse introduit une innovation technique clé : les Circuits Neuronaux Attentifs (NACs). Cette architecture modulaire apprend à la fois la paramétrisation des modules neuronaux et leurs schémas de connectivité. Les NACs démontrent une amélioration des performances dans l’adaptation à faible nombre d’exemples et la robustesse hors distribution par rapport aux références denses. Les expériences montrent que ce biais inductif modulaire apporte des améliorations dans diverses modalités de données, incluant les images naturelles et le langage, les processus symboliques et les nuages de points. La recherche démontre ensuite des applications pratiques dans le domaine de l’Observation de la Terre (EO), où les données hétérogènes présentent des défis uniques. L’architecture neuronale à usage général proposée (GPNA), pré-entraînée sur des données multi-spectrales, radar à synthèse d’ouverture et RGB, atteint de fortes performances dans des tâches allant de la segmentation sémantique à la détection de changements et la classification. Une analyse plus approfondie explore comment les modèles de langage peuvent orchestrer dynamiquement des modèles pré-entraînés au moment de l’inférence, introduisant efficacement une parcimonie post-hoc au système. Enfin, cette thèse examine les implications plus larges de la modularité et de l’interaction éparse dans les systèmes homme-IA à travers le Bazar de l’Information - un marché où les modèles de langage régulent l’échange d’informations. Ce système étend les principes architecturaux à la conception de mécanismes économiques, permettant des connexions éparses entre acheteurs et vendeurs humains via des agents IA. Le travail aborde le Paradoxe de l’Inspection de l’Acheteur, où les acheteurs doivent inspecter l’information pour évaluer sa valeur tandis que les vendeurs doivent empêcher son utilisation non autorisée. À travers des expériences dans le marché simulé, les résultats démontrent comment les agents de modèles de langage peuvent servir d’intermédiaires, décomposant les interactions économiques complexes pour réduire les frictions.
Abstract
Despite their success in many domains, neural networks struggle with out-of-distribution generalization. This thesis investigates how modular architectures and agentic systems can address this challenge, presenting both theoretical frameworks and practical implementations. Through systems of sparsely interacting components, this research develops architectures that enable flexible composition and improved generalization across domains ranging from formal language learning to geospatial analysis and information markets. The investigation begins with a theoretical foundation in formal language learning. Through rigorous analysis of dense neural networks’ capabilities in modeling rule-based systems, this work uncovers fundamental limitations in their ability to extrapolate beyond training distributions. This theoretical analysis reveals the need for alternative approaches and motivates the development of modular and neuro-symbolic architectures better suited to emulating mathematical structures. Building on these insights, this thesis introduces a key technical innovation: Neural Attentive Circuits (NACs). This modular architecture learns both the parameterization of neural modules and their connectivity patterns. NACs demonstrate improved performance in lowshot adaptation and out-of-distribution robustness compared to dense baselines. Experiments show that this modular inductive bias yields improvements across diverse data modalities, including natural images and language, symbolic processes, and point clouds. The research then demonstrates practical applications in the domain of Earth Observation (EO), where heterogeneous data presents unique challenges. The proposed general-purpose neural architecture (GPNA), pre-trained on multi-spectral, synthetic aperture radar, and RGB data, achieves strong performance across tasks from semantic segmentation to change detection and classification. Further analysis explores how language models can dynamically orchestrate pre-trained models at inference time, effectively introducing post-hoc sparsity to the system. Finally, this thesis examines the broader implications of modularity in human-AI systems through the Information Bazaar - a marketplace where language models mediate information exchange. This system extends the architectural principles to economic mechanism design, enabling connections between human buyers and sellers via AI agents. The work addresses the Buyer’s Inspection Paradox, where buyers must inspect information to assess its value while sellers need to prevent unauthorized use. Through experiments in the simulated marketplace, results demonstrate how language model agents can serve mediate economic interaction.
| Département: | Département de génie informatique et génie logiciel |
|---|---|
| Programme: | Génie informatique |
| Directeurs ou directrices: |
Christopher J. Pal |
| URL de PolyPublie: | https://publications.polymtl.ca/65011/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 26 août 2025 14:09 |
| Dernière modification: | 26 août 2025 18:35 |
| Citer en APA 7: | Weiss, M. (2025). On Modularity: From Neural Circuits to Foundation Models and Agentic Systems [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/65011/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
