Phénotypage du patient chirurgical et prédiction de trajectoire post-opératoire par apprentissage machine

Pascal Laferrière-Langlois

Mémoire de maîtrise (2022)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (3MB)

Afficher le résumé

Cacher le résumé

Résumé

Plus de 50 millions de chirurgies sont pratiquées annuellement en Amérique du Nord. Bien que seulement 12% des patients soient considérés à risque périopératoire élevé, ils expliquent 80% des complications graves causant un stress pour le patient et sa famille, ainsi que pour le système de santé œuvrant dans un contexte de ressources limitées. Inspiré de domaines connexes, le phénotypage digital est une approche identifiant des sous-groupes de patients partageant des caractéristiques clés au sein d'une population hétérogène et, en se basant sur le profil des données informatiques des patients, permet d'anticiper l'évolution clinique. L'hypothèse à la base de cette étude est que le dossier médical électronique permet de phénotyper les patients en période préopératoire pour stratifier leur risque. Les objectifs sont 1) identifier pour la première fois des phénotypes avec les données médicales préchirurgicales; 2) comparer la performance prédictive des phénotypes au score ASA (American Society of Anesthesiologists) actuellement utilisé; 3) ainsi qu'à des modèles prédictifs supervisés entraînés sur les mêmes données. À partir de la base de données PDW (Patient Data Warehouse) provenant du dossier médical électronique du réseau hospitaliser de UCLA (University of California in Los Angeles), tous les patients adultes ayant subi une laminectomie, colectomie ou chirurgie thoracique depuis 2013, instauration du PDW, ont été extraits. Cinq issues cliniques ont été utilisées pour décrire la trajectoire postopératoire : mortalité hospitalière, mortalité à 30 jours, réopération à 30 jours, admission en soins intensifs (USI) et durée d'hospitalisation postopératoire prolongée (DHP). Considérant la présence de 4,000 variables par chirurgie dans le PDW, une première sélection de variables préopératoires a été effectuée par le consensus de trois experts cliniques et, à partir de celle-ci, un jeu de données par chirurgie fut créé en retenant uniquement les variables présentant une corrélation de Pearson statistiquement significative (p <0.05) avec l'une des issues cliniques. Après le retrait des variables fortement corrélées, les trois jeux de données comportaient respectivement 34, 36 et 33 variables, qui furent normalisées par transformation standard. Chaque jeu de donnée était ensuite séparé en ensemble de dérivation et test, basé sur l'année de chirurgie, afin de faire la validation temporelle de la performance prédictive pour chaque issue clinique. La segmentation par quatre algorithmes (DB Scan, hiérarchique, k-means, consensus k-means) a été explorée avant de retenir le consensus k-means pour créer trois phénotypes. Une fois le jeu de dérivation segmenté, une forêt aléatoire a été entraînée pour attribuer prospectivement un phénotype aux patients du jeu de données test et analyser les résultats. Pour chacune des chirurgies, le phénotype 0 était le plus fréquent (total de 73.6%) et regroupait les patients typiquement plus jeunes, avec moins de comorbidités et subissant une chirurgie non-urgente, dite élective. Le phénotype 1 regroupait des patients plus âgés et plus malades subissant typiquement une chirurgie élective, alors que le phénotype 2 était principalement caractérisé par une chirurgie urgente, une hospitalisation préopératoire plus longue et une douleur préopératoire plus grande. Les 5 issues cliniques mesurées présentaient une progression croissante à travers les phénotypes (mortalité hospitalière : 0.2%, 2.3% et 7.3%; réopération : 2.8%, 5.4% et 9.3%; admission en USI : 8%, 36.1% et 48%). Lorsque la performance prédictive des phénotypes était mesurée à l'ASA, l'aire sous la courbe ROC (Receiver Operating Characteristics) du phénotype digital était similaire ou légèrement supérieure (mortalité hospitalière : 0.85 et 0.84; réopération : 0.62 et 0.59; admission USI : 0.76 et 71). Les profils de courbe ROC du phénotype digital et de l'ASA suggéraient leur complémentarité, et la combinaison des deux performait de façon supérieure (0.91, 0.63 et 0.80). Trois architectures de modèles supervisés ont été explorées : régression logistique (RL), forêt aléatoire (RF) et perceptron multicouche (MLP). À partir des mêmes jeux de données que ceux utilisés pour le phénotypage, les architectures ont été explorées avec le jeu de dérivation et une validation croisée avec 5 replis. Le modèle le plus performant pour chaque chirurgie et pour chaque issue clinique était ensuite appliqué au jeu de test. L'architecture la plus performante (11 des 15 modèles) était le MLP. Alors que l'AUROC et le score F1 ont respectivement atteint des valeurs moyennes élevées dans les 5 replis de la validation (mortalité hospitalière : 0.91 et 0.4; réopération : 0.64 et 0.22; admission USI : 0.99 et 0.95), la performance dans le groupe test était faible. La meilleure valeur d'AUROC en test est 0.74 et F1, est 0.25. Cette différence de performance est au moins partiellement expliquée par le débalancement important des classes puisque les issues cliniques utilisées sont rares. Des stratégies de balancement des classes auraient pu être explorées, mais la même transformation aurait dû être appliquée à la base de données de phénotypage pour répondre à l'objectif de comparer le signal extrait par les deux approches. En résumé, cette recherche présente les premiers phénotypes préchirurgicaux et démontre leur capacité prédictive sur la trajectoire de soins postopératoires pour trois différentes chirurgies fréquemment pratiquées en Amérique du Nord. Si la méthode est confirmée sur davantage de chirurgies, les phénotypes ont le potentiel d'automatiser l'analyse de risque, contrairement aux scores actuellement utilisés qui dépendent d'une évaluation par le clinicien.

Abstract

More than 50 million surgeries are annually performed in North America. Even if a mere 12% of the patients are considered high-risk, they account for 80% of the significant complications that will cause distress both for the patient and his family, and for the healthcare systems operating in an actual context of resource scarcity. Inspired from related fields, digital phenotyping allows the identification of clusters sharing key characteristics among a wider heterogeneous population and based on the medical data of the individual patients, can anticipate the care trajectory. The underlying hypothesis of this research electronic medical record (EMR) can be used to phenotype patients before their surgery to stratify their risk. The objectives are 1) to create the first digital phenotypes of surgical patients using the preoperative data, 2) to compare the predictive ability for the care of these phenotypes to the ASA (American Society of Anesthesiologists) score currently used in clinical environment as we as 3) with predictive supervised model trained on the same datasets. Using the Patient Data Warehouse (PDW), a custom database created from the EMR used in the hospital network of the University of California in Los Angeles (UCLA), all the adult patients undergoing a laminectomy, colectomy of thoracic surgery since 2013, the inception of 2013, were extracted for analysis. Five clinical outcomes were used to describe the care trajectory: hospital mortality, 30-days mortality, 30-days reoperation, admission at the intensive care unit (ICU), and prolonged postoperative hospitalization. With more than 4000 different features recorded for each surgery in the PDW, a first selection of preoperative variables was made by consensus among 3 medical experts, and, from this selection, three surgery-specific datasets were created by keeping only the variables significantly correlated (p <0.05) with at least one clinical outcome. After removing highly correlated variables the three datasets respectively contained 34, 36 and 33 features, which were rescaled to a standardized distribution. Each dataset were then separated in. derivation set and test set based on the year of the surgery, allowing prospective temporal validation of the predictive models created for each dataset. The segmentation results of 4 different algorithms (DB Scan, hierarchical, k-means, consensus k-means) were analyzed before retaining consensus k-means to create 3 distinct surgery-specific phenotypes. Once the final segmentation completed on the derivation dataset, a random forest algorithm was trained to prospectively attribute a phenotype to the patients in the test set and analyse the results. For all surgeries, phenotype 0 was the most frequently attributed (63.6%) and mostly contained younger and healthier patient undergoing an elective surgery. Phenotype 1 typically contained older patient with more comorbidities undergoing elective procedure, while phenotype 2 was characterized by the urgency of the surgery, longer preoperative hospitalisation and increased preoperative pain. The 5 clinical issues increased progressively among the phenotypes (hospital mortality: 0.2%, 2.3% and 7.3%; reoperation: 2.8%, 5.4% and 9.3%; ICU admission: 8%, 36.1% and 48%). When compared to the ASA score, the area under the receiver operating characteristics curve (AUROC) of the digital phenotype was similar or slightly superior to ASA (hospital mortality: 0.85 and 0.84; reoperation: 0.62 and 0.59; ICU admission: 0.76 and 71). The profiles of the 2 ROC curves suggested complimentary in the signal extracted, and the linear combination of the 2 scores achieved higher performance than each alone (0.91, 0.63 and 0.80). Three architectures of supervised models were explored: logistic regression (LR), random forest (RF) and multilayer perceptron (MLP). Starting from the same datasets as used for phenotyping, the architectures were explored in the derivation set with a 5-fold cross validation. The most performing model for each surgery and each clinical outcome was used on the test set. MLP was provided the best performance in 11 of the 15 models. While AUROC and F1 score both reached high average performance in the 5-fold validations (hospital mortality: 0.91 and 0.4; reoperation: 0.64 and 0.22; ICU admission: 0.99 and 0.95), the prediction in the test set remained low. The highest AUROC and F1 score obtained in the test set were respectively 0.74 and 0.25. This performance discordance can be partially explained by the significant class imbalance considering that all clinical outcomes explored are rare. Strategies as over- and under-sampling could have been explored to improve the metrics, but the same transformation would have to be made on the datasets before phenotyping the patients to respect our objective of comparing the signal extracted by the two different methods. In conclusion, this research presents the first presurgical phenotypes and demonstrated their predictive ability on the postoperative care trajectory of three different frequently performed surgeries. When compared to ASA score which requires expert assessment, these phenotypes strictly use readily extractable features from the EMR and therefore present the potential of automating risk stratification.

Département:	Département de mathématiques et de génie industriel
Programme:	Maîtrise recherche en génie industriel
Directeurs ou directrices:	Nadia Lahrichi , Maxime Cannesson et Philippe Richebé
URL de PolyPublie:	https://publications.polymtl.ca/10511/
Université/École:	Polytechnique Montréal
Date du dépôt:	06 févr. 2023 14:39
Dernière modification:	08 avr. 2024 10:23

Citer en APA 7:	Laferrière-Langlois, P. (2022). Phénotypage du patient chirurgical et prédiction de trajectoire post-opératoire par apprentissage machine [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10511/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document