Optimisation de la sélection de techniques déceptives pour la sécurité et la cyber-résilience

Mémoire de maîtrise (2022)

Accès restreint: Personnel autorisé jusqu'au 17 juillet 2024
Conditions d'utilisation: Tous droits réservés

Résumé

Pour améliorer la cyber-résilience et la sécurité des systèmes informatiques, une possibilité est l’utilisation de stratégies déceptives telles que les stratégies de leurrage ou les stratégies de défense par cible mouvante (Moving Target Defense - MTD). Cependant, le coût de ses dernières et leur impact nécessite une optimisation de leur déploiement. Une première partie de notre travail fut la proposition d’un modèle de confrontation attaquant/ défenseur prenant en compte les différentes perceptions des joueurs ainsi que la différence de nature entre les effets des stratégies de leurrage et des stratégies de défense par cible mouvante. Il a ensuite fallu s’assurer que nous étions capables d’optimiser la sélection des stratégies déceptives dans un tel modèle. Pour cela, nous avons proposé un scénario d’attaquant basé sur la Cyber Kill Chain dont le but est de compromettre le système ; puis nous avons entraîné un agent défenseur à ralentir ou empêcher l’atteinte de cet objectif grâce à l’algorithme d’apprentissage profond par renforcement Deep Q-Network (DQN). Nos résultats montrent un ralentissement de l’attaquant face à notre agent défenseur entraîné en comparaison à des stratégies plus naïves telles l’utilisation récurrente de la même stratégie ou le choix aléatoire de la stratégie défensive. La seconde partie de notre travail fut de vérifier si l’optimisation de la sélection de techniques déceptives était toujours possible et efficace dans un environnement réel. Il a donc fallu déployer un environnement avec des stratégies MTD et de leurrage. Nous avons ensuite entraîné un agent attaquant à atteindre un objectif d’exfiltration de données sensibles dans cet environnement alors statique en déployant ou non des stratégies de leurrage. Pour cela, des contraintes sur ses observations nous ont obligé à utiliser un autre algorithme d’apprentissage profond par renforcement que DQN. Nous avons utilisé l’algorithme Proximal Policy Optimization (PPO). L’entraînement était efficace et nous avons pu observer l’influence des stratégies de leurrage. Nous avons ensuite entraîné un agent défenseur à contrer ou ralentir cet attaquant en déployant ses propres stratégies MTD ou de leurrage. Nos résultats montrent que les stratégies MTD sont très efficaces contre un agent attaquant habitué aux environnements statiques même lorsque l’intervalle d’action du défenseur est assez grand (50 actions de l’attaquant pour une action du défenseur). De cela, nous avons déduit que l’amélioration de l’agent défenseur passerait forcément par l’amélioration de l’agent attaquant notamment en adaptant sa perception et ses observations aux changements dans l’environnement.

Abstract

To improve the cyber-resilience and security of Information Technology (IT) systems, one possibility is the use of deceptive strategies such as deception or Moving Target Defense (MTD) strategies. However, the cost of these strategies and their impact requires optimization of their deployment. The first part of our work is to propose a model of the attacker/defender confrontation that takes into account the different perceptions of the players as well as the difference in kind between the effects of deception and MTD strategies. We must ensure that we are able to optimize the selection of deceptive strategies in this model. To do this, we propose an attacker scenario based on the Cyber Kill Chain with the goal of compromising the system; then we train a defending agent to slow down or prevent the achievement of this goal using a deep reinforcement learning algorithm: the Deep Q-Network (DQN) algorithm. Our results show a slowing down of the attacker against our trained defensive agent compared to more naive strategies, such as the repetitive use of the same strategy or the random choice of the defensive strategy. The second part of our work is to verify if the optimization of the selection of deceptive strategies is still possible and effective in a real environment. This involves deploying an environment with MTD and deception strategies. We then train an attacking agent to achieve a goal of exfiltrating sensitive data in this static environment by deploying or not deception strategies. For this, constraints on its observations lead us to use another deep reinforcement learning algorithm than DQN, namely, the Proximal Policy Optimization (PPO) algorithm. The training is effective and we are able to observe the influence of deception strategies. We then train a defender agent to counter or slow down this attacker by deploying its own MTD or deception strategies. Our results show that MTD strategies are very effective against an attacking agent used in static environments, even when the defender’s action interval is quite large (50 attacker’s actions for one defender’s action). From this, we deduce that the improvement of the defender agent would necessarily involve the improvement of the attacker agent, in particular, by adapting its perception and observations to changes in the environment.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Nora Boulahia Cuppens et Frédéric Cuppens
URL de PolyPublie:	https://publications.polymtl.ca/10736/
Université/École:	Polytechnique Montréal
Date du dépôt:	17 juil. 2023 11:42
Dernière modification:	07 avr. 2024 12:30

Citer en APA 7:	Charpentier, A. (2022). Optimisation de la sélection de techniques déceptives pour la sécurité et la cyber-résilience [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10736/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document