<  Retour au portail Polytechnique Montréal

Privacy-Preserving Federated Learning Architecture for Secure Patient Data Sharing in Hospital Networks

Mahnaz Ghorbanizad

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)
Afficher le résumé
Cacher le résumé

Résumé

La croissance rapide des systèmes de santé numériques a transformé la manière dont les données des patients sont collectées, traitées et analysées pour améliorer les résultats médicaux. Cependant, cette évolution a également soulevé des préoccupations majeures concernant la confidentialité et la sécurité des données, notamment dans les réseaux hospitaliers où les informations sensibles des patients doivent être protégées contre tout accès non autorisé. La recherche collaborative entre les hôpitaux est souvent freinée par les réglementations sur la confidentialité, empêchant ainsi le partage de données précieuses. L'apprentissage fédéré « Federated Learning » (FL) s'impose comme une solution innovante permettant aux institutions de former conjointement des modèles d'apprentissage automatique sans transférer de données brutes, répondant ainsi à de nombreux défis liés à la confidentialité. Toutefois, malgré son potentiel, l'apprentissage fédéré présente certaines limites, telles que les vulnérabilités aux fuites de données, le risque de compromission de l’entraînement local du modèle et une diminution des performances en raison de l’hétérogénéité des données entre les différents noeuds. Cette dissertation propose une architecture d'apprentissage fédéré préservant la confidentialité pour améliorer le partage sécurisé des données des patients entre les hôpitaux, permettant ainsi une collaboration efficace sans enfreindre les réglementations sur la confidentialité. L'architecture proposée intègre le mécanisme de confidentialité différentielle « Differential Privacy » (DP) afin d'introduire un bruit contrôlé dans les mises à jour de l'entraînement du modèle local avant leur partage pour l'agrégation globale, protégeant ainsi les informations sensibles même en présence de menaces adversariales. De plus, l'algorithme d'agrégation « Federated Averaging» (FedAvg) est utilisé pour combiner les mises à jour des modèles provenant de diverses institutions tout en empêchant la divulgation des contributions individuelles, préservant ainsi la confidentialité des ensembles de données de chaque hôpital. La recherche utilise la base de données « Oxford Parkinson's Disease Detection Dataset » pour simuler un scénario réaliste impliquant plusieurs noeuds hospitaliers. Chaque noeud traite ses données partitionnées localement, reflétant une configuration décentralisée similaire aux environnements hospitaliers réels. L'étude compare également l'apprentissage fédéré avec l'application de la confidentialité différentielle et l'apprentissage fédéré sans confidentialité différentielle dans une analyse comparative visant à mettre en évidence les avantages et les compromis de l'approche. Des métriques de performance clés, telles que la précision du modèle, l'efficacité computationnelle et la préservation de la confidentialité, sont utilisées pour évaluer l'efficacité du système proposé. Un élément clé de l’évaluation consiste à examiner l’impact des différents multiplicateurs de bruit (σ) sur les budgets de confidentialité correspondants (ε) dans le mécanisme de confidentialité différentielle. Cette analyse quantifie les compromis entre la préservation de la confidentialité et les performances du modèle, offrant un aperçu de l’influence de l’injection de bruit sur la précision et l’efficacité du modèle fédéré. Les résultats indiquent que l’architecture proposée préserve efficacement la confidentialité des données tout en maintenant une précision compétitive et une efficacité d'entraînement stable par rapport à l’apprentissage fédéré sans mécanisme de confidentialité différentielle. Les résultats expérimentaux démontrent que l’architecture proposée atteint un équilibre solide entre confidentialité et utilité. Le modèle intégrant la confidentialité différentielle avec un multiplicateur de bruit de σ = 1,0 a obtenu une précision de 92,50 %, avec un budget de confidentialité de ε = 4,80, offrant ainsi une protection robuste de la confidentialité tout en maintenant des performances compétitives. Une analyse comparative entre l’apprentissage fédéré avec confidentialité différentielle et l’apprentissage fédéré sans confidentialité différentielle révèle que, bien que la confidentialité différentielle améliore la confidentialité des données, elle introduit des compromis en termes de précision et de temps d'entraînement. Le modèle, sans confidentialité différentielle, a atteint une précision de 98,70 % avec un temps d'entraînement total de 7,82 secondes ; cependant, il ne protège pas la confidentialité, le rendant vulnérable aux attaques de reconstruction et d’inférence des données. En revanche, l’apprentissage fédéré avec (σ = 1,0) n’a nécessité que 5,76 secondes pour compléter l’entraînement tout en garantissant une forte protection de la confidentialité, empêchant tout accès non autorisé aux données sensibles des patients. Bien que l’apprentissage fédéré sans atteigne une précision plus élevée, la confidentialité reste une exigence essentielle dans les applications de santé, où la protection des informations des patients est primordiale.Contrairement à certaines études précédentes ayant rapporté une surcharge computationnelle importante due à l’intégration de la confidentialité différentielle, l’efficacité de l’entraînement dans cette architecture est restée stable, confirmant ainsi sa faisabilité pour des collaborations hospitalières en conditions réelles.

Abstract

The rapid growth of digital healthcare systems has transformed the way patient data is collected, processed, and analyzed to improve medical outcomes. However, this evolution has also introduced significant concerns regarding data privacy and security, particularly in hospital networks where sensitive patient information must be safeguarded against unauthorized access. Collaborative research between hospitals is often hindered by privacy regulations, preventing the sharing of valuable datasets. Federated Learning (FL) has emerged as an innovative solution that enables institutions to collaboratively train machine learning models without transferring raw data, thus addressing many privacy-related challenges. However, despite its potential, FL presents several limitations, such as vulnerabilities to data leakage, the risk of compromised local model training and decreased performance due to data heterogeneity across different nodes. This dissertation proposes a Privacy-Preserving Federated Learning (PPFL) architecture to enhance secure patient data sharing among hospitals, enabling effective collaboration without breaching privacy regulations. The proposed architecture incorporates Differential Privacy (DP) mechanism to introduce controlled noise into local model training updates before they are shared for global aggregation, protecting sensitive information even in the presence of adversarial threats. Additionally, the Federated Averaging (FedAvg) aggregation algorithm is employed to combine model updates from various institutions while preventing the disclosure of individual contributions, thereby preserving the privacy of each hospital’s dataset. The research employs the Oxford Parkinson's Disease Detection Dataset to simulate a realistic healthcare scenario involving multiple hospital nodes. Each node processes its partitioned data locally, reflecting a decentralized setup that mirrors real-world hospital environments. Moreover, the research benchmarks Federated Learning (FL) with applying Differential Privacy (DP) and Federated Learning (FL) without Differential Privacy (DP) for comparative analysis to highlight the benefits and trade-offs of the approach. Key performance metrics, such as model accuracy, computational efficiency, and privacy preservation, are used to evaluate the effectiveness of the proposed architecture. A critical component of the evaluation examines the impact of different noise multipliers (σ) on the corresponding privacy budgets (ε) within the Differential Privacy (DP) mechanism. This analysis quantifies the trade-offs between privacy preservation and model performance, offering insights into how noise injection influences the accuracy and efficiency of the federated model. The results indicate that the proposed architecture effectively preserves data confidentiality while maintaining competitive accuracy and stable training efficiency compared to Federated Learning (FL) without Differential Privacy (DP) mechanism. Experimental results demonstrate that the proposed architecture achieves a strong balance between privacy and utility. The model, incorporating Differential Privacy (DP) with a noise multiplier of σ = 1.0 attained an accuracy of 92.50%, with a privacy budget of ε = 4.80, providing robust privacy protection while maintaining competitive performance. A comparative analysis between Federated Learning (FL) with DP and Federated Learning (FL) without DP reveals that while DP enhances data confidentiality, it introduces trade-offs in accuracy and training time. The model, without Differential Privacy (DP), attained an accuracy of 98.70% with a total training time of 7.82 seconds; however, it lacks privacy protection, making it vulnerable to data reconstruction and inference attacks. In contrast, the FL with DP (σ = 1.0) required only 5.76 seconds to complete training while providing strong privacy guarantees, preventing unauthorized access to sensitive patient data. Although FL without DP achieves higher accuracy, confidentiality is a critical requirement in healthcare applications, where protecting patient information is paramount. Unlike some prior research works that reported significant computational overhead due to DP integration, the training efficiency in this architecture remained stable, confirming its feasibility in real-world hospital collaborations

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Samuel Pierre
URL de PolyPublie: https://publications.polymtl.ca/64975/
Université/École: Polytechnique Montréal
Date du dépôt: 26 août 2025 13:42
Dernière modification: 26 août 2025 16:25
Citer en APA 7: Ghorbanizad, M. (2025). Privacy-Preserving Federated Learning Architecture for Secure Patient Data Sharing in Hospital Networks [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/64975/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document