Mémoire de maîtrise (2025)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (3MB) |
Résumé
Ce mémoire propose une approche novatrice pour relever les défis critiques de la génération de résumés cliniques qui soient à la fois précis, pertinents et adaptés au domaine médical. Utilisant les grands modèles de langue (LLMs), cette méthode vise également à réduire les "hallucinations", c’est-à-dire la production d’informations factuellement incorrectes. Le point de départ de cette recherche est le constat que les note cliniques actuelles de patients contiennent une grande quantité de données que les médecins doivent examiner en détail. L’objectif est d’automatiser ce processus afin de diminuer l’épuisement professionnel des médecins et d’améliorer l’efficacité des soins de santé. Bien que les LLM présentent un potentiel considérable pour la synthèse de textes, leur tendance à générer des informations erronées et leurs difficultés à traiter des données spécifiques à un domaine, surtout dans le contexte médical où la confidentialité est primordiale, posent des risques importants. L’objectif central de cette recherche est d’utiliser les ontologies médicales, des représentations structurées de connaissances factuelles, pour guider les LLM afin de produire des résumés plus fiables et spécifiques à une spécialité. L’hypothèse est que l’intégration de ces ontologies dans le processus de génération des LLM améliorera la précision et la pertinence des résumés cliniques. La méthodologie s’articule autour de plusieurs axes, en commençant par une analyse d’adaptation au domaine médical via une annotation basée sur les ontologies pour identifier les concepts clés. Par la suite, une stratégie d’extraction d’informations s’appuie sur ces ontologies pour créer une représentation structurée des notes cliniques. Finalement, un nouveau processus de décodage contraint et guidé par l’ontologie est appliqué, utilisant une approche qui favorise le contenu aligné sur les relations ontologiques et permet de minimiser les incohérences. Les résultats expérimentaux, obtenus notamment avec le jeu de données MIMIC-III, montrent des améliorations significatives dans la génération de résumés adaptés et une réduction des hallucinations. Ces conclusions indiquent que le fait de contraindre la génération des LLMs à l’aide d’ontologies diminue efficacement la génération d’informations erronées. De plus, ce mémoire introduit aussi MedHal, un nouvel ensemble de données conçu spécifiquement pour l’évaluation de la détection des hallucinations dans les textes médicaux. MedHal surmonte les limites des jeux de données actuels en intégrant diverses sources et tâches médicales et en fournissant un volume important d’exemples. Ces exemples sont également annotés avec des explications indiquant les incohérences factuelles. Ceci permet un entraînement et une évaluation plus robustes des modèles de détection d’hallucination. vi Les retombées de cette recherche pour le secteur de la santé sont considérables. Ce travail contribue de manière significative à l’avancement de la synthèse de textes assistée par les modèles de langue dans le domaine médical en apportant des solutions concrètes aux défis de la factualité et de l’adaptation au domaine. Enfin, nous apportons également une solution pour alléger la charge de travail des docteurs, améliorer la qualité des soins, accélérer la recherche en IA médicale et faciliter un déploiement plus sûr des LLMs dans le domaine médical
Abstract
This thesis presents an innovative approach to address the critical challenges of generating accurate, relevant, and domain-adapted clinical summaries using Large Language Models (LLMs), while simultaneously mitigating hallucinations. Recognizing that Electronic Health Records (EHRs) contain vast amounts of structured and unstructured data, which clinicians must review thoroughly, this research aims to automate this process to reduce burnout and improve healthcare efficiency. While LLMs offer significant potential for summarization, their inherent tendencies to hallucinate and their limitations with out-of-distribution data, particularly in the privacy-sensitive medical domain, pose substantial risks. The core objective of this research is to leverage medical ontologies, structured representations of factual domain knowledge, to guide LLMs towards generating more grounded, domain-relevant, and specialty-specific summaries (e.g., tailored for radiologists versus oncologists). The underlying hypothesis is that integrating ontologies into the LLM generation process will enhance the factual accuracy and relevance of clinical summaries. The methodology encompasses several key components: an initial domain adaptation analysis using ontology-based annotation to identify and prioritize relevant concepts; an ontology-based prompting strategy for information extraction, leading to a Concept-Structured Representation (CSR) of clinical notes; and a novel ontology-guided constrained decoding process. This decoding mechanism utilizes a beam search approach, incorporating hierarchy, property, and similarity scores to favour content that aligns with ontological relationships and reduces factual inconsistencies. The experimental results demonstrate significant improvements in generating domain-adapted summaries of clinical notes and in hallucination reduction, particularly through the application of the proposed methods on the MIMIC-III dataset. The findings indicate that constraining LLM output with ontological knowledge effectively reduces the generation of erroneous information. Furthermore, the thesis introduces MedHal, a new large-scale dataset specifically designed for evaluating hallucination detection in medical texts. MedHal addresses the limitations of existing smaller, single-task datasets by incorporating diverse medical text sources and tasks, providing a substantial volume of annotated samples with explanations for factual inconsistencies. This allows for more robust training and evaluation of medical hallucination detection models. The MedHal dataset proves valuable for developing more effective medical hallucination detection systems. viii The implications of this research are considerable for healthcare, as it offers a way to reduce clinician workload by providing precise and relevant information, enhance the quality of patient care through domain-adapted data, accelerate medical AI research by providing a standardized evaluation framework, and facilitate the safer deployment of LLMs in clinical settings by mitigating the critical issue of hallucinations. This work makes a contribution to advancing LLM-assisted text summarization in the medical field by offering concrete solutions to challenges of factuality and domain adaptation through ontology integration and robust evaluation tools
| Département: | Département de génie informatique et génie logiciel |
|---|---|
| Programme: | GÉNIE INFORMATIQUE |
| Directeurs ou directrices: |
Amal Zouaq |
| URL de PolyPublie: | https://publications.polymtl.ca/67792/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 11 févr. 2026 10:09 |
| Dernière modification: | 11 févr. 2026 10:43 |
| Citer en APA 7: | Mehenni, G. (2025). Ontology-Constrained Generation of Domain-Specific Clinical Summaries [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/67792/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
