<  Back to the Polytechnique Montréal portal

Machine Learning for Disease Outbreak Detection Using Probabilistic Models

Nastaran Jafarpour Khameneh

PhD thesis (2014)

[img]
Preview
Download (3MB)
Cite this document: Jafarpour Khameneh, N. (2014). Machine Learning for Disease Outbreak Detection Using Probabilistic Models (PhD thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/1659/
Show abstract Hide abstract

Abstract

RÉSUMÉ L’expansion de maladies connues et l’émergence de nouvelles maladies ont affecté la vie de nombreuses personnes et ont eu des conséquences économiques importantes. L’Ébola n’est que le dernier des exemples récents. La détection précoce d’infections épidémiologiques s’avère donc un enjeu de taille. Dans le secteur de la surveillance syndromique, nous avons assisté récemment à une prolifération d’algorithmes de détection d’épidémies. Leur performance peut varier entre eux et selon différents paramètres de configuration, de sorte que l’efficacité d’un système de surveillance épidémiologique s’en trouve d’autant affecté. Pourtant, on ne possède que peu d’évaluations fiables de la performance de ces algorithmes sous différentes conditions et pour différents types d’épidémie. Les évaluations existantes sont basées sur des cas uniques et les données ne sont pas du domaine public. Il est donc difficile de comparer ces algorithmes entre eux et difficile de juger de la généralisation des résultats. Par conséquent, nous ne sommes pas en mesure de déterminer quel d’algorithme devrait être appliqué dans quelles circonstances. Cette thèse poursuit trois objectifs généraux : (1) établir la relation entre la performance des algorithmes de détection d’épidémies et le type et la sévérité de ces épidémies, (2) améliorer les prédictions d’épidémies par la combinaison d’algorithmes et (3) fournir une méthode d’analyse des épidémies qui englobe une perspective de coûts afin de minimiser l’impact économique des erreurs du type faux positifs et faux négatifs. L’approche générale de notre étude repose sur l’utilisation de données de simulation d’épidémies dont le vecteur de transmission est un réseau d’aqueducs. Les données sont obtenues de la plateforme de simulation SnAP du Department of Epidemiology and Biostatistics Surveillance Lab de l’université McGill. Cette approche nous permet de créer les différentes conditions de types et d’intensités d’épidémiologie nécessaires à l’analyse de la performance des algorithmes de détection. Le premier objectif porte sur l’influence des différents types et différentes intensités d’épidémiologie sur la performance des algorithmes. Elle est modélisée à l’aide d’un modèle basé sur un réseau bayésien. Ce modèle prédit avec succès la variation de performance observée dans les données. De plus, l’utilisation d’un réseau bayésien permet de quantifier l’influence de chaque variable et relève aussi le rôle que jouent d’autres paramètres qui étaient jusqu’ici ignorés dans les travaux antérieurs, à savoir le seuil de détection et l’importance de tenir compte de récurrences hebdomadaires. Le second objectif vise à exploiter les résultats autour du premier objectif et de combiner les algorithmes pour optimiser la performance en fonction des facteurs d’influence. Les résultats des algorithmes sont combinés à l’aide de la méthode de Mixture hiérarchique d’expert (Hierarchical Mixture of Experts—HME). Le modèle HME est entraîné à pondérer la contribution de chaque algorithme en fonction des données. Les résultats de cette combinaison des résultats d’algorithmes sont comparables avec les meilleurs résultats des algorithmes individuels, et s’avèrent plus robustes à travers différentes variations. Le niveau de contamination n’influence pas la performance relative du modèle HME. Finalement, nous avons tenté d’optimiser des méthodes de détection d’épidémies en fonction des coûts et bénéfices escomptés des prédictions correctes et incorrects. Les résultats des algorithms de détection sont évalués en fonction des décisions possibles qui en découlent et en tenant compte de données réelles sur les coûts totaux d’utilisation des ressources du système de santé. Dans un premier temps, une régression polynomiale permet d’estimer le coût d’une épidémie selon le délai de détection. Puis, nous avons développé un modèle d’apprentissage d’arbre de décision qui tient compte du coût et qui prédit les détections à partir des algorithmes connus. Les résultats expérimentaux démontrent que ce modèle permet de réduire le coût total des épidémies, tout en maintenant le niveau de détection des épidémies comparables à ceux d’autres méthodes.----------ABSTRACT The past decade has seen the emergence of new diseases or expansion of old ones (such as Ebola) causing high human and financial costs. Hence, early detection of disease outbreaks is crucial. In the field of syndromic surveillance, there has recently been a proliferation of outbreak detection algorithms. The choice of outbreak detection algorithm and its configuration can result in important variations in the performance of public health surveillance systems. But performance evaluations have not kept pace with algorithm development. These evaluations are usually based on a single data set which is not publicly available, so the evaluations are difficult to generalize or replicate. Furthermore, the performance of different algorithms is influenced by the nature of the disease outbreak. As a result of the lack of thorough performance evaluations, one cannot determine which algorithm should be applied under what circumstances. Briefly, this research has three general objectives: (1) characterize the dependence of the performance of detection algorithms on the type and severity of outbreak, (2) aggregate the predictions of several outbreak detection algorithms, (3) analyze outbreak detection methods from a cost-benefit point of view and develop a detection method which minimizes the total cost of missing outbreaks and false alarms. To achieve the first objective, we propose a Bayesian network model learned from simulated outbreak data overlaid on real healthcare utilization data which predicts detection performance as a function of outbreak characteristics and surveillance system parameters. This model predicts the performance of outbreak detection methods with high accuracy. The model can also quantify the influence of different outbreak characteristics and detection methods on detection performance in a variety of practically relevant surveillance scenarios. In addition to identifying outbreak characteristics expected to have a strong influence on detection performance, the learned model suggests a role for other algorithm features, such as alerting threshold and taking weekly patterns into account, which was previously not the focus of attention in the literature. To achieve the second objective, we use Hierarchical Mixture of Experts (HME) to combine the responses of multiple experts (i.e., predictors) which are outbreak detection methods. The contribution of each predictor in forming the final output is learned and depends on the input data. The developed HME algorithm is competitive with the best detection algorithm in the experimental evaluation, and is more robust under different circumstances. The level of contamination of the surveillance time series does not influence the relative performance of the HME. The optimization of outbreak detection methods also relies on the estimation of future benefits of true alarms and the cost of false alarms. In the third part of the thesis, we analyze some commonly used outbreak detection methods in terms of the cost of missing outbreaks and false alarms, using simulated outbreak data overlaid on real healthcare utilization data. We estimate the total cost of missing outbreaks and false alarms, in addition to the accuracy of outbreak detection and we fit a polynomial regression function to estimate the cost of an outbreak based on the delay until it is detected. Then, we develop a cost-sensitive decision tree learner, which predicts outbreaks by looking at the prediction of commonly used detection methods. Experimental results show that using the developed cost-sensitive decision tree decreases the total cost of the outbreak, while the accuracy of outbreak detection remains competitive with commonly used methods.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Dissertation/thesis director: Michel C. Desmarais and Doina Precup
Date Deposited: 02 Apr 2015 10:46
Last Modified: 27 Jun 2019 16:48
PolyPublie URL: https://publications.polymtl.ca/1659/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only