Master's thesis (2024)
Restricted to: Repository staff only until 11 October 2025 Terms of Use: All rights reserved |
Abstract
In the Semantic Web, an ontology is a framework that organizes concepts in a hierarchical structure while adding relationships, rules, and axioms between them. Contrary to relational databases, ontologies offer a more flexible and expressive way to represent knowledge, and unlike the rigidity of relational databases, which define tables and relations strictly, ontologies allow for the representation of complex, interconnected concepts with the ability to infer new knowledge based on the defined relationships and rules. Many real-world applications benefit from the sophistication of this framework. From biomedicine to biodiversity, nutrition, and material science, the expressiveness of ontologies is an essential tool for representing and describing the world around us. Emerging from the vast developments of ontologies across multiple domains and applications, numerous ontology-related tasks have seen the light. Amongst them are, ontology integration, ontology completion, subsumption prediction, and the most notorious, ontology alignment, which is the task of identifying correspondences between semantically related elements, such as classes, properties, and instances, across different ontologies. This thesis explores novel ways of mapping ontologies to a latent space through robust, scalable, and generalized representation learning. Following the recent advances in language models, we focus on how ontology embeddings can leverage them by building more accurate vector representations. We then utilize our novelties to address the foremost issues of representation learning in ontology-related tasks by developing state-of-the-art systems. During this research, our work has been divided into three articles. First, SEBMatcher, is an ontology alignment system that relies on two BERT networks and a context-enhanced input to produce alignment. Second, SORBET is an ontology embedding model inspired by SEBMatcher that leverages a distance-based regression loss and a pre-trained SentenceBERT to produce high-quality ontology embeddings. Third, SORBETMatcher is a simple schema matching and subsumption prediction system whose primary objective was to showcase the potential of SORBET embeddings in ontology-related tasks.
Résumé
Dans le Web sémantique, une ontologie est un cadriciel qui organise des concepts dans une structure hiérarchique tout en ajoutant des relations, des règles et des axiomes entre eux. Contrairement aux bases de données relationnelles, les ontologies offrent une manière plus souple et expressive de représenter la connaissance, et à la différence de la rigidité des bases de données relationnelles, qui définissent strictement des tables et des relations, les ontologies permettent la représentation de concepts complexes et interconnectés avec la capacité d’inférer de nouvelles connaissances en fonction des relations et des règles définies. De nombreuses applications du monde réel bénéficient de la sophistication de ce cadre. De la biomédecine à la biodiversité, en passant par la nutrition et les sciences des matériaux, l’expressivité des ontologies est un outil essentiel pour représenter et décrire le monde qui nous entoure. Émergeant des vastes développements des ontologies à travers plusieurs domaines et applications, de nombreuses tâches liées aux ontologies ont vu le jour. Parmi elles, on trouve la complétion d’ontologies, la prédiction de sous-classes, et la plus notoire, l’alignement d’ontologies, tâche qui consiste à identifier des correspondances entre des éléments sémantiquement équivalents, tels que des classes, des propriétés et des instances, à travers différentes ontologies. Dans ce mémoire, nous explorons comment l’apprentissage de représentation peut contribuer à la production de plongements d’ontologies qui soient généralisables, robustes et qui permettent une mise à échelle. Nous utilisons ensuite nos représentations dans des tâches liées aux ontologies en développant des systèmes de pointe. Nous explorons notamment de nouvelles façons d’aligner les ontologies vers un espace latent grâce à l’apprentissage de représentations à partir de structures ontologiques et en utilisant de grands modèles de langage préentraînés. Au cours de cette recherche, notre travail a été divisé en trois articles. Premièrement, SEBMatcher est un système d’alignement d’ontologies qui repose sur deux réseaux siamois BERT et des parcours aléatoires de la structure ontologique pour produire un alignement. Deuxièmement, SORBET est un modèle d’encodage d’ontologie inspiré par SEBMatcher qui utilise une nouvelle fonction de régression basée sur la distance entre classes et un modèle SentenceBERT pré-entraîné pour produire des encodages d’ontologies de haute qualité. Troisièmement, SORBETMatcher est un système d’alignement d’ontologies et de prédiction de sous-classes dont l’objectif principal est de démontrer le potentiel des plongements obtenus avec SORBET dans les tâches liées aux ontologies.
Department: | Department of Computer Engineering and Software Engineering |
---|---|
Program: | Génie informatique |
Academic/Research Directors: | Amal Zouaq |
PolyPublie URL: | https://publications.polymtl.ca/58218/ |
Institution: | Polytechnique Montréal |
Date Deposited: | 11 Oct 2024 13:19 |
Last Modified: | 12 Oct 2024 01:57 |
Cite in APA 7: | Gosselin, F. (2024). Ontology Embeddings with Pretrained Language Models and Schema Information for Ontology-Related Tasks [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/58218/ |
---|---|
Statistics
Total downloads
Downloads per month in the last year
Origin of downloads