Thibault Le Sellier de Chezelles
Mémoire de maîtrise (2025)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (3MB) |
Résumé
Les agents web basés sur les grands modèles de langage (Large Language Models, LLM) émergent comme une technologie prometteuse permettant d’automatiser des interactions complexes avec les interfaces web. Malgré leur potentiel élevé, l’évaluation rigoureuse de ces agents reste difficile en raison d’une fragmentation significative des benchmarks existants, de l’instabilité des environnements web, et de l’absence de standards méthodologiques clairement établis. Ce mémoire introduit AgentLab, un cadre expérimental modulaire et extensible développé afin de répondre à ces défis méthodologiques. Intégré à l’écosystème BrowserGym, Agent- Lab propose des mécanismes avancés de gestion des expérimentations, incluant l’exécution parallèle d’expériences, la gestion automatique des erreurs et des dépendances entre tâches, ainsi qu’un suivi détaillé des versions logicielles utilisées pour assurer la reproductibilité. Il offre également des outils interactifs pour l’analyse détaillée des traces, permettant une compréhension approfondie du comportement et des décisions des agents. L’évaluation expérimentale approfondie, menée sur plusieurs benchmarks représentatifs tels que MiniWoB++, WebArena et WorkArena++, démontre la capacité d’AgentLab à faciliter la comparaison rigoureuse des modèles. Les résultats obtenus soulignent à la fois les performances prometteuses des meilleurs modèles actuels tels que Claude 3.5 Sonnet, mais aussi leurs limites persistantes face à certaines tâches complexes. Enfin, ce travail propose des perspectives d’amélioration future incluant l’automatisation avancée de l’analyse d’erreurs, la gestion optimisée des ressources computationnelles et l’élargissement de l’écosystème à d’autres domaines d’application. AgentLab constitue ainsi une étape concrète vers la standardisation et la reproductibilité dans l’évaluation des agents web, facilitant une recherche plus transparente, collaborative et orientée vers l’impact.
Abstract
Web agents based on Large Language Models (LLM) are emerging as a promising technology for automating complex interactions with web interfaces. Despite their significant potential, rigorous evaluation of these agents remains challenging due to fragmented existing benchmarks, instability in web environments, and the absence of clearly established methodological standards. This master thesis introduces AgentLab, a modular and extensible experimental framework developed to address these methodological challenges. Integrated into the BrowserGym ecosystem, AgentLab offers advanced mechanisms for experiment management, including parallel experiment execution, automatic error handling, task dependency management, and detailed version tracking to ensure reproducibility. Additionally, it provides interactive tools for detailed trace analysis, enabling deep insights into agent behavior and decision-making. A comprehensive experimental evaluation conducted on several representative benchmarks, such asMiniWoB++,WebArena, andWorkArena++, demonstrates AgentLab’s capability to facilitate rigorous model comparison. The results highlight both the promising performance of current leading models such as Claude 3.5 Sonnet, and their persistent limitations when faced with certain complex tasks. Finally, this work proposes future avenues for improvement, including advanced automation of error analysis, optimized computational resource management, and extending the ecosystem to other application domains. AgentLab thus represents a concrete step towards standardization and reproducibility in web agent evaluation, fostering more transparent, collaborative, and impactful research.
| Département: | Département de génie informatique et génie logiciel |
|---|---|
| Programme: | Génie informatique |
| Directeurs ou directrices: |
Quentin Cappart |
| URL de PolyPublie: | https://publications.polymtl.ca/65950/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 14 nov. 2025 15:32 |
| Dernière modification: | 14 nov. 2025 19:09 |
| Citer en APA 7: | Le Sellier de Chezelles, T. (2025). Standardisation et reproductibilité dans l'évaluation des agents web basés sur les grands modèles de langage [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/65950/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
