Mémoire de maîtrise (2024)
Accès restreint: Personnel autorisé jusqu'au 11 octobre 2025 Conditions d'utilisation: Tous droits réservés |
Résumé
Les séries temporelles sont un type de données omniprésent dans le monde scientifique. De par leur nature temporelle, elles sont utilisées pour enregistrer l’évolution de toutes sortes de phénomènes au cours du temps, que ce soit en météorologie, en finance, en réseautique. Dès qu’on veut surveiller l’activité d’un système, ce type de donnée est utile. De part leur omniprésence dans des domaines cruciaux, il devient intéressant de savoir détecter des anomalies pour ce type de données. Typiquement, un dysfonctionnement du système dont on extrait une série temporelle va se manifester dans ladite série. Détecter ce changement comme anormal permet d’être alerté du dysfonctionnement. Par exemple, une attaque par déni de service distribué ouDistributed Denial of Service (DDoS) sur un réseau va se traduire par un pic bref dans la série temporelle du nombre de paquets reçu par le réseau. Dans ce contexte particulier de la sécurité réseau, il y a d’énormes enjeux à détecter les anomalies puisque toutes les infrastructures importantes de la société sont basées sur des réseaux informatiques. En conséquence, le nombre de cyber-attaques sur des réseaux ne fait qu’augmenter années après années. Il existe dans la littérature de nombreuses approches génériques de détection d’anomalies, applicables en particulier à des séries temporelles. Nombre d’entre elles se basent sur de l’apprentissage machine, plus particulièrement sur de l’apprentissage profond et donc les réseaux de neurones. Typiquement, on peut utiliser des approches de classification : en entraînant un agent sur les données normales et différentes classes de données anormales (types de dysfonctionnements, types d’attaques), l’agent devient capable de reconnaître les signatures de différentes anomalies dans les données. Ces approches d’apprentissage supervisé ont le désavantage de limiter le système de détection aux anomalies déjà rencontrées et répertoriées en suffisamment grand nombre pour pouvoir avoir assez de données pour l’entraînement souvent coûteux de réseaux de neurones. Pour éviter cet écueil, une autre approche développée dans la littérature est d’utiliser un modèle génératif, généralement un réseau antagoniste génératif ou Generative Adversarial Network (GAN). Le principe est d’entraîner un modèle capable de générer des données en accord avec la distribution des données d’entraînement. Le modèle est donc entraîné à générer les données normales, puis en comparant la prédiction du modèle avec des données réelles, on peut estimer un score d’anomalie.
Abstract
Time series is a type of data that appears everywhere in the scientific and industrial world. Because of their temporal nature they are used to monitor the evolution of many different phenomenons over time in many different fields such as meteorology, finance or networking. Whenever one wants to monitor the activity of a system, this type of data proves to be useful. Because of this presence in such crucial domains, it is very interesting to be able to detect anomalies in this type of data. Typically a malfunctioning in a system monitored by a time series will be translated by an anomaly in the said series. Detecting this change as abnormal in the time series warns about the malfunctioning. For example, a DDoS on a network will be translated into a spike in the time series of the number of packets received by the network. In this particular context of network security, the stakes are high when it comes to detecting anomalies, since most important infrastructures rely on computer networks. As a consequence, the number of cyber-attacks on networks only raises year after year. In the literature, there are numerous approaches for general anomaly detection that consequently can be applied to time series. Many of them are based on machine learning, more precisely on deep learning and on neural networks. Typically, one can use classification methods: by training an agent on normal data and different classes of anomalous data, the agent is then able to recognize the signatures of different anomalies in the data. Such supervised learning methods have the drawback of limiting the detection system to anomalies that are already well documented in large enough numbers to be able to perform the often costly training of the neural networks. To avoid this, another approach developed in the literature is to use a generative model, generally a GAN. The idea is to train a model to generate data following the distribution of the training data. The model is thus trained to generate normal data then by comparing this forecast with real data one can estimate an anomaly score.
Département: | Département de génie informatique et génie logiciel |
---|---|
Programme: | Génie informatique |
Directeurs ou directrices: | Soumaya Cherkaoui |
URL de PolyPublie: | https://publications.polymtl.ca/58023/ |
Université/École: | Polytechnique Montréal |
Date du dépôt: | 11 oct. 2024 13:21 |
Dernière modification: | 12 oct. 2024 02:21 |
Citer en APA 7: | Kalfon, B. (2024). Réalisation d'un GAN quantique adapté à la détection d'anomalies pour les séries temporelles issues de données réseau [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/58023/ |
---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements