<  Retour au portail Polytechnique Montréal

Système de détection d'intrusion non supervisé fédéré

Maxime Gourceyraud

Mémoire de maîtrise (2024)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)
Afficher le résumé
Cacher le résumé

Résumé

Les organisations à travers le monde subissent une menace croissante pour leur sécurité informatique. En effet, le marché de la cybercriminalité connaît un développement intense. Pour se protéger, les entreprises constituent des équipes de cyberdéfense. Parmi la panoplie d’outils de défense, on trouve les Systèmes de Détection d’Intrusion (IDS). Ces logiciels alertent en cas de comportement suspect dans le système informatique. Un tel comportement pourrait donc relever d’une intrusion d’un acteur malveillant. Ces IDS assistent les analystes en sécurité informatique et leur indiquent quelle communication sur le réseau inspecter. Ces outils facilitent ainsi le travail des équipes de sécurité. Les IDS fonctionnent typiquement par signature. Pour créer ce genre d’IDS, il faut d’abord générer une base de données d’attaques déjà identifiées. Ensuite, l’IDS renvoie une alerte lorsqu’il reconnaît un pattern (signature) présent dans sa base d’attaques. Pour tenter de mieux prédire les cyberattaques, la recherche se tourne vers les IDS à base d’apprentissage automatique. Or, la plupart des outils développés dans ce cadre sont supervisés. Cela signifie que les données étudiées doivent être étiquetées pour entraîner le modèle. Toutefois, les entreprises génèrent de grandes quantités de données. Il semble ainsi irréaliste de demander à des analystes d’étiqueter chaque logs ou chaque communications sur le réseau comme étant suspecte ou non. C’est pourquoi, au cours de ce projet, nous utilisons de l’apprentissage non supervisé. En effet, les données n’ont pas besoin d’être étiquetées pour pouvoir entraîner un modèle de ce type. Le modèle détermine les ressemblances entre les données par lui-même. Les données observées par les IDS sont en général critiques puisqu’elles décrivent les actions et les ressources d’un système informatique. Ainsi, les entreprises sont réticentes à dévoiler ces informations pour collaborer les unes avec les autres. Or, les attaques subies par les unes pourraient être menées contre les autres. Il semble donc important de collaborer malgré la sensibilité des données. C’est pourquoi l’IDS proposé dans ce mémoire utilise l’apprentissage fédéré. De cette manière, les données restent chez les participants du protocole et ne sont pas dévoilées tout en coopérant.

Abstract

With the growing digitization of the world, the cyberthreat is becoming more and more concerning. To protect from cyberattacks companies create teams to defend themselves. These teams use several tools such as Intrusion Detection Systems (IDS). IDS detect if a behaviour or a specific communication is suspicious and raises an alert to analysts. Indeed such tools are designed to detect a threat. This makes defending an organization easier by telling analysts what to inspect. The typical IDS is signature-based. The first step to create such an IDS is to populate a database with previously identified attacks. Then the IDS raises an alert when it recognizes an attack (signature) stored in its database. Research is now heading towards machine learning-based IDS to detect cyberattacks in a more efficient way. Usually this kind of IDS is based on supervised algorithms. It means that each communication/behaviour needs to be labelled to train the model. But companies generate a lot of data to monitor. Thus it seems unfeasible for analysts to label each log. That is why during this project we used unsupervised machine learning. Indeed there is no need to label each data because the model finds by itself patterns in data. Machine learning models require data to be trained on but data to train an IDS are sensitive ones. Indeed such data can be exploited to learn confidential information about the company that owns them. Nonetheless companies could benefit from collaboration. Indeed if a company was never attacked but some other was, the first could benefit from the second. To enable collaboration, we used federated learning. This way, the data owned by the companies are kept in the companies. This enhances privacy.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Nora Boulahia Cuppens et Frédéric Cuppens
URL de PolyPublie: https://publications.polymtl.ca/59170/
Université/École: Polytechnique Montréal
Date du dépôt: 18 juin 2025 11:40
Dernière modification: 30 juil. 2025 21:44
Citer en APA 7: Gourceyraud, M. (2024). Système de détection d'intrusion non supervisé fédéré [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/59170/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document