Leveraging Query Expansion and Augmentation for Text-to-SQL Evaluation

Mohamed Riahi

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (2MB)

Afficher le résumé

Cacher le résumé

Résumé

Le Text-to-SQL est la tâche consistant à générer une requête SQL exécutable par une base de données à partir d’une requête en langage naturel. Son objectif est de démocratiser l’accès aux données en entreprise, en permettant aux utilisateurs non techniques d’interroger directement leurs données. Les récents progrès des grands modèles de langage (LLM) ont permis d’atteindre une précision remarquable sur les jeux de tests publics et d’envisager des déploiements en production dans des environnements contrôlés. Cependant, les systèmes actuels de Text-to-SQL restent opaques, et leur évaluation comparative sur des jeux de données privés demeure difficile. Une exigence clé pour une évaluation robuste sur des jeux de données privés est la création d’un jeu d’évaluation de référence (golden set). La construction manuelle d’un tel jeu est coûteuse en main-d’œuvre, tandis que s’appuyer principalement sur des LLM introduit du non-déterminisme, des hallucinations, des problèmes de reproductibilité, ainsi que des coûts importants. Les jeux de tests publics de Text-to-SQL tels que Spider et BIRD offrent une alternative, mais ne reflètent pas la complexité des requêtes présentes dans les charges de travail d’entreprise. Les requêtes en entreprise présentent souvent des structures de jointure plus riches, des schémas contenant du jargon et des acronymes propres au domaine, ainsi que de nombreuses dépendances, ce qui met les systèmes de Text-to-SQL à l’épreuve. De plus, les classements sur les tableaux d’honneur publics peuvent ne pas refléter la performance relative des systèmes sur des jeux de données privés. Pour relever ces défis, nous proposons deux techniques d’automatisation inédites : (i) Join Query Expansion (JQE) et (ii) Textual Query Augmentation (TQA). Ces deux approches visent à créer des points de blocage (choke points) ciblés, afin de mettre systématiquement à l’épreuve les différentes parties des systèmes de Text-to-SQL. JQE se concentre sur la com-posante SQL et accroît systématiquement la complexité des requêtes en élargissant l’ensemble des tables jointes dans une requête SQL donnée. Elle intègre des vérifications sémantiques pour garantir des jointures valides et non transitives, ainsi qu’un mécanisme d’élagage tenant compte de la diversité afin de maximiser la couverture structurelle. TQA se concentre sur la composante en langage naturel, en traitant spécifiquement le problème de l’élimination des tables de liaison : il détecte les tables de liaison dans la requête SQL (souvent, mais pas toujours, des tables relationnelles traversées par des jointures), détermine si la requête en langage naturel les mentionne, et applique l’une des trois stratégies d’augmentation pour modifier ces références. Nos expériences avec JQE montrent une augmentation substantielle de la diversité struc-turelle, avec un degré moyen du graphe passant de 0,82 à 1,80 et une cyclicité des jointures passant de 0,27% à 4%, deux indicateurs de requêtes plus complexes. Nous démontrons égale-ment que cette complexité accrue entraîne, pour deux systèmes à l’état de l’art, une baisse moyenne d’environ 20% de la précision d’exécution. Avec TQA, bien que les trois stratégies d’augmentation se révèlent efficaces pour éliminer les tables de liaison, les systèmes Text-to-SQL à l’état de l’art restent relativement résilients, avec une baisse maximale observée de 5,6% de la précision d’exécution.

Abstract

Text-to-SQL is the task of generating a database-executable SQL query from a natural lan-guage inquiry. Its goal is to democratize data access within the enterprise, enabling non-technical users to query their data directly. Recent advances in large language models (LLMs) have yielded impressive accuracy on public benchmarks and enabled controlled production deployments. However, current Text-to-SQL systems remain opaque, and their comparative evaluation on private datasets is difficult. A key requirement for robust evaluation on private datasets is the creation of a golden evaluation set. Manual construction of such a set is labor-intensive, while relying primarily on LLMs introduces nondeterminism, hallucinations, and reproducibility challenges along with significant cost. Public Text-to-SQL benchmarks such as Spider and BIRD offer an alternative, but they do not capture the query complexity of enterprise workloads. Enterprise queries often exhibit richer join structures and schema designs filled with domain-specific jargon and acronyms that challenge Text-to-SQL systems. Moreover, system rankings on public leaderboards may not reflect their relative performance on private datasets. To address these challenges, we propose two novel automatic evaluation techniques: (i) Join Query Expansion (JQE) and (ii) Textual Query Augmentation (TQA). Both are designed to create targeted choke points that systematically challenge Text-to-SQL system parts. JQE focuses on the SQL component. It increases query complexity by expanding the set of joined tables in an input SQL query. It incorporates semantic checks to ensure valid, non-transitive joins and a diversity-aware pruning mechanism to maximize structural coverage. TQA focuses on the natural language component, specifically addressing linker table elimination: it detects linker tables in the SQL query, i.e., often, but not always, relationship tables traversed through joins. TQA determines whether the NL query references the linker tables, and applies one of three augmentation strategies to modify these references. Our experiments with JQE show a substantial increase in structural diversity, with the aver-age graph degree rising from 0.82 to 1.80 and join cyclicity increasing from 0.27% to 4%, both indicators of more challenging queries. We further demonstrate that this added complexity causes two state-of-the-art systems to experience an average drop of approximately 20% in execution accuracy. With TQA, while all three augmentation strategies show high accuracy in eliminating linker table, state-of-the-art Text-to-SQL systems remain relatively resilient, with a maximum observed drop of 5.6% in execution accuracy.

Département:	Département de génie informatique et génie logiciel
Programme:	GÉNIE INFORMATIQUE
Directeurs ou directrices:	Foutse Khomh et Amine Mhedhbi
URL de PolyPublie:	https://publications.polymtl.ca/69007/
Université/École:	Polytechnique Montréal
Date du dépôt:	10 févr. 2026 13:31
Dernière modification:	10 févr. 2026 13:41

Citer en APA 7:	Riahi, M. (2025). Leveraging Query Expansion and Augmentation for Text-to-SQL Evaluation [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/69007/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document