Enhancing Text-to-SQL Systems Through LLM Routing and Effective Evaluation

Mohammadhossein Malekpour

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (2MB)

Afficher le résumé

Cacher le résumé

Résumé

L’exploration des données par requêtes constitue un goulot d’étranglement opérationnel dans la prise de décision en entreprise. Les utilisateurs métier disposent souvent du contexte de domaine nécessaire, mais maîtrisent mal le SQL et les schémas de bases de données, tandis que les équipes data centralisées, qui traduisent les demandes en requêtes, fonctionnent comme une ressource partagée et contrainte, ce qui introduit des délais. Les systèmes Text-to-SQL visent à réduire cette friction en traduisant des questions en langage naturel (NL) en SQL exécutable, et les progrès récents des grands modèles de langage (LLM) ont rendu les premiers déploiements en entreprise de plus en plus envisageables. Malgré ces avancées, deux défis persistent: (i) le coût élevé des pipelines Text-to-SQL fortement dépendants des LLM pour traiter les requêtes les plus complexes, alors même que les charges de travail réelles couvrent un large éventail de complexité; et (ii) une évaluation reposant sur une métrique grossière et binaire, telle que l’exactitude d’exécution, ainsi que sur des benchmarks publics dont les schémas ne reflètent pas ceux des entreprises. Cette thèse traite ces défis à travers de deux contributions complémentaires. Premièrement, nous introduisons un cadre de routage de LLM sensible au coût pour le Text-to-SQL, qui sélectionne, pour chaque requête, le modèle le moins coûteux susceptible de générer un SQL exact, au lieu de recourir systématiquement à un unique modèle de référence pour toutes les requêtes NL. Notre routeur est léger, construit à partir de signaux peu coûteux et de règles de décision simples (basées sur des scores et sur la classification), de sorte que la surcharge induite par le routage reste négligeable par rapport à l’étape de génération SQL qu’il optimise. Des expériences sur un benchmark récent montrent que le routage conserve une exactitude proche de celle du modèle le plus performant tout en réduisant le coût, ce qui le rend particulièrement adapté aux déploiements à fort volume. Deuxièmement, nous renforçons l’évaluation à la fois du point de vue des métriques et des données d’évaluation. Du côté des métriques, nous proposons des mesures d’exécution fines opérant sur les tables de résultats exécutées: l’Execution Precision (EXP) quantifie la part de la sortie prédite qui est correcte, l’Execution Recall (EXR) quantifie la part de la sortie de référence récupérée, et leur score F1 en fournit une synthèse. Ces métriques mettent en évidence la correction partielle et distinguent la sur-prédiction de la sous-prédiction d’une manière que l’exactitude d’exécution binaire ne permet pas, offrant ainsi un signal plus diagnostique pour le débogage. Du côté des données, nous introduisons la Textual Query Augmentation (TQA), qui dé-naturalise systématiquement les identifiants de schéma et leurs mentions en NL, par exemple en remplaçant des noms descriptifs par des abréviations de style entreprise, tout en préservant la sémantique. Appliquée à des systèmes Text-to-SQL de l’état de l’art, la TQA révèle une fragilité importante sous des régimes de nommage proches de ceux des entreprises et permet une évaluation plus réaliste, centrée sur la robustesse. Notre cadre de routage, nos métriques fines et la TQA constituent des approches pratiques pour rendre les systèmes Text-to-SQL fondés sur des LLM à la fois plus efficaces et évalués de manière plus fiable, dans des conditions plus proches de l’usage réel en entreprise.

Abstract

Exploratory data querying is an operational bottleneck in enterprise decision-making. Business users often have the necessary domain context but lack familiarity with SQL and database technology, while centralized data teams that translate requests into queries operate as a constrained shared resource, introducing delays. Text-to-SQL systems aim to reduce this friction by translating natural-language (NL) questions into executable SQL, and recent advances in large language models (LLMs) have made early enterprise deployments increasingly feasible. Despite this progress, two challenges persist: (i) the high cost of LLM-heavy Text-to- SQL pipelines to tackle the most complex queries, even though real workloads span a wide range of query complexities; and (ii) evaluation relying on a coarse, binary metric such as execution accuracy and on public benchmarks whose schemas fail to reflect enterprise ones. This thesis addresses these challenges through two complementary contributions. First, we introduce a cost-aware LLM routing framework for Text-to-SQL that selects, on a per-query basis, the least expensive model expected to generate accurate SQL, rather than defaulting to a single strongest model for all NL queries. Our router is lightweight, built from inexpensive signals and simple score-based and classification-based decision rules, so that routing overhead remains negligible relative to the SQL generation stage it optimizes. Experiments on a modern benchmark demonstrate that routing preserves accuracy close to that of the strongest model while reducing cost, making it especially well-suited for high-volume deployments. Second, we strengthen evaluation along both the metric and dataset dimensions. On the metric side, we propose fine-grained execution measures that operate on executed result tables: Execution Precision (EXP) quantifies how much of the predicted output is correct, Execution Recall (EXR) quantifies how much of the ground-truth output is recovered, and their F1 score summarizes both. These metrics expose partial correctness and distinguish over- from under-prediction in ways that binary execution accuracy cannot, providing a more diagnostic signal for debugging. On the data side, we introduce Textual Query Augmentation (TQA), which systematically de-naturalizes schema identifiers and their NL mentions, e.g., replacing descriptive names with enterprise-style abbreviations, while preserving semantics. Applied to state-of-the-art Text-to-SQL systems, TQA reveals substantial brittleness under enterprise-like naming regimes and enables more realistic, robustness-aware evaluation. Our routing framework, fine-grained metrics, and TQA provide practical approaches for making LLM-based Text-to-SQL systems both more efficient and more reliably evaluated under conditions closer to real enterprise use.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie Informatique
Directeurs ou directrices:	Foutse Khomh et Amine Mhedhbi
URL de PolyPublie:	https://publications.polymtl.ca/71174/
Université/École:	Polytechnique Montréal
Date du dépôt:	23 mars 2026 13:57
Dernière modification:	23 mars 2026 16:39

Citer en APA 7:	Malekpour, M. (2025). Enhancing Text-to-SQL Systems Through LLM Routing and Effective Evaluation [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/71174/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document