Mémoire de maîtrise (2025)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (870kB) |
Résumé
La recherche de molécules médicales est une tâche coûteuse en terme de temps et de res-sources. Considérant que la majorité des molécules possibles ne sont pas désirables, l’utilisation d’un mécanisme automatisé tel que l’apprentissage automatique gagne en popularité pour fil-trer les candidats ou pour trouver des molécules ayant des propriétés particulières. Par contre, de tels mécanismes ne garantissent pas de respecter les propriétés qu’on essaie de leur faire apprendre. SMILES est une représentation uni-dimensionelle couramment utilisée dans le domaine de la chimie ainsi qu’en apprentissage automatique. Dans notre recherche, nous proposons un modèle de programmation par contraintes qui per-met de représenter les molécules organiques en utilisant la représentation SMILES. Ce modèle met de l’avant la contrainte grammar comme principale composante pour la représentation valide de molécules. On démontre comment certaines propriétés chimiques, comme le poids moléculaire et la lipophilicitée, peuvent être représentées en programmation par contraintes dans notre modèle. On répond aussi au manque de garanties dans les modèles d’apprentissage automatique en utilisant notre modèle neurosymbolique GeAI-BlAnC. Les probabilités qu’apprend le modèle d’apprentissage automatique sont mélangées avec les probabilitées marginales calculées à partir de notre modèle de programmation par contraintes augmentée avec de la BP lors de la génération de séquence. Le prochain jeton que l’on génère est choisi à partir de la distribution de probabilités obtenue à partir du modèle. Nos expérimentations sur ce modèle hybride montrent qu’on réussit à respecter la struncture imposée après l’entrainement du modèle sans trop s’éloigner de la structure apprise lors de l’apprentissage.
Abstract
Drug discovery is a very costly endeavor in both time and resources and, unfortunately, most possible molecules are not desirable. Using automated techniques such as Machine Learning has become standard to reduce the number of likely candidates or to target specific types of molecules. However, these techniques offer no guarantees that such targets are reached. Among the standard formats used to encode molecules, SMILES is a widespread string representation that has gained traction in both Machine Learning and chemistry circles. We propose a constraint programming model showcasing the grammar constraint to express the design space of organic molecules using the SMILES notation. We show how some common physicochemical properties — such as molecular weight and lipophilicity — and structural features can be expressed as constraints in the model. We also address the lack of guarantees in Machine Learning models by using our neurosym-bolic framework GeAI-BlAnC. The learned probabilities of the sequence model are mixed in with the marginal probabilities from a constraint programming / belief propagation frame-work at inference time. The next predicted token is then selected from the resulting probabil-ity distribution. Experiments on this hybrid model show that we can achieve the post-training imposed structure without straying too much from the structure of the dataset learned during training.
| Département: | Département de génie informatique et génie logiciel |
|---|---|
| Programme: | Génie informatique |
| Directeurs ou directrices: |
Gilles Pesant |
| URL de PolyPublie: | https://publications.polymtl.ca/68141/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 11 févr. 2026 10:09 |
| Dernière modification: | 11 févr. 2026 10:43 |
| Citer en APA 7: | Saikali, D. (2025). Generating Valid and Desirable Molecules using Constraint Programming and Hybrid Machine Learning Models [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/68141/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
