Mémoire de maîtrise (2024)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (2MB) |
Résumé
De nos jours, les études cliniques sur les maladies neurodégénératives génèrent des bases de données de plus en plus grandes et complexes à analyser pour atteindre leurs objectifs de re-cherche. L’identification de biomarqueurs potentiels et la découverte de nouveaux traitements exigent de nouvelles approches mathématiques, en raison de la complexité biologique de ces maladies. Dans le cadre de notre recherche, nous nous intéressons principalement à deux études cliniques portant sur la maladie de Parkinson et sur une autre maladie neurologique de type génétique. Notre premier projet a pour objectif de valider l’existence de biomarqueurs de la maladie dans les protéines des vésicules extracellulaires dérivées des érythrocytes. Les données à notre disposition sont cependant très complexes, corrélées et incomplètes, avec un nombre de variables bien plus élevé que le nombre de patients impliqués. L’approche par apprentis-sage machine s’avère alors adéquate. Plus précisément, nous avons optimisé les différentes étapes de l’approche systématique, à savoir la mise à l’échelle, l’imputation, la sélection de variables, l’échantillonnage et la prédiction. Notre méthodologie consiste à classifier les patients parkinsoniens et les patients contrôles, puis à interpréter les prédictions des modèles pour identifier des biomarqueurs potentiels. Pour ce faire, quatre méthodes originales ont été testées dans l’approche systématique : une méthode d’imputation flexible, de sous-échantillonnage par prototypes, de sous-échantillonnage par erreurs de reconstruction et un classificateur utilisant les interactions protéine-protéine. Nous observons, de manière générale, que les performances de classification sur l’ensemble de données demeurent limitées, ce qui suggère une possible absence de biomarqueurs dans celui-ci. Toutefois, nos méthodes originales permettent d’améliorer les performances ou potentiellement l’interprétabilité des modèles. Notre deuxième projet a pour objectif d’évaluer l’efficacité d’une nouvelle molécule dans le contexte d’une maladie neurologique de type génétique. Pour ce faire, nous analysons des données cliniques recueillies sur 54 mois, avec un groupe placebo différé qui débute le traitement au 18e mois. Notre approche consiste à utiliser des modèles mixtes pour mesures répétées afin de préserver la dépendance temporelle des données pour chaque patient. Ces modèles sont généralement analysés en trois parties distinctes, ce qui complexifie la tâche. Nous avons donc implémenté une approche simplifiée permettant de confirmer l’efficacité du traitement dans un seul modèle, en se fiant à une variable mesurant le temps de traitement chez les patients. De manière générale, l’analyse montre que le traitement n’a pas d’efficacité significative sur l’ensemble de la cohorte. Toutefois, en dichotomisant les patients selon certaines caractéristiques, nous avons obtenu des sous-groupes pour lesquels le traitement semble avoir un effet significatif sur leur état de santé. Ces résultats encourageants issus de notre analyse pourraient conduire au lancement de nouvelles études plus approfondies sur l’efficacité de ce traitement.
Abstract
Nowadays, clinical studies on neurodegenerative diseases generate increasingly large and com-plex datasets, making them challenging to analyze in order to meet research objectives. Identifying potential biomarkers or discovering new treatments requires new mathematical approaches due to the biological complexity of these diseases. In our research, we are primarily focused on two clinical studies concerning Parkinson’s disease and another genetically-based neurological disease. Our first project on Parkinson’s disease aims to validate the existence of disease biomark-ers in proteins from erythrocyte-derived extracellular vesicles. However, the data at our disposal are very complex, correlated, and incomplete, with a much higher number of vari-ables than the number of patients involved. Machine learning approaches therefore prove to be appropriate. Thus, a machine learning approach proves to be suitable. Specifically, we optimized various stages of a systematic approach, including scaling, imputation, feature selection, sampling, and prediction. Our methodology involves classifying Parkinsonian patients and control patients, followed by interpreting model predictions to identify potential biomarkers. To achieve this, we tested four novel methods within the systematic approach: a flexible imputation method, prototype-based undersampling, reconstruction error-based undersampling, and a classifier utilizing protein-protein interactions. Overall, we observe that classification performance on the dataset remains limited, suggesting a possible lack of biomarkers within it. However, our original methods allow for improvements in performance or potentially in the interpretability of the models. Our second project aims to evaluate the efficacy of a new molecule in the context of a genetically-based neurological disease. To achieve this, we are analyzing clinical data col-lected over 54 months, with a delayed placebo group starting treatment at the 18th month. Our approach involves using mixed models for repeated measures to preserve the temporal dependency of the data for each patient. These models are typically analyzed in three distinct parts, which complicates the task. Therefore, we have implemented a simplified approach to confirm the treatment’s efficacy in a single model, relying on a variable that measures the treatment duration in patients. In general, the analysis shows that the treatment does not have a significant effect on the entire cohort. However, by dichotomizing patients based on certain characteristics, we identified subgroups for which the treatment seems to have a significant effect on their health status. These encouraging results from our analysis could lead to the launch of more in-depth studies on the efficacy of this treatment.
| Département: | Département de mathématiques et de génie industriel |
|---|---|
| Programme: | Maîtrise recherche en mathématiques appliquées |
| Directeurs ou directrices: |
Richard Labib |
| URL de PolyPublie: | https://publications.polymtl.ca/61587/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 16 juin 2025 16:11 |
| Dernière modification: | 05 août 2025 06:58 |
| Citer en APA 7: | Ricard, T. (2024). Intégration des approches statistiques et d'apprentissage machine dans l'étude des maladies neurodégénératives [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/61587/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
