Analyse de similarité de kits de phishing en PHP, HTML et JavaScript

Mathieu Margier

Mémoire de maîtrise (2021)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (2MB)

Afficher le résumé

Cacher le résumé

Résumé

Le phishing est une menace qui demeure active et en pleine croissance. Avec la pandémie de la COVID-19, l'année 2020 a vu un pic avec plus de 200 000 attaques signalées. Les attaquants déploient typiquement du code source sur un serveur de site web pour usurper une marque, ou imiter une situation dans laquelle il est attendu de l'utilisateur de renseigner des informations personnelles que les attaquants convoitent (comme des identifiants, numéros de carte de crédit, etc.). Les kits de phishing sont un ensemble de fichiers prêts à être déployés, qui peuvent simplement être copiés sur un serveur web et être quasiment utilisés tels quels. Les attaques de phishing sont un sujet qui a été largement exploré sous l'angle de la contre- mesure, avec la détection de spam dans les courriels, ou l'identification de sites web de phishing. Cependant, peu d'études se focalisent sur le code source côté serveur des kits de phishing, en partie à cause de sa difficulté d'accès. Dans ce travail, on considère l'analyse statique de la similarité du code source PHP, JS, HTML de 20 871 kits de phishing, totalisant plus de 180 millions de lignes de code. Ces kits ont été collectés pendant des attaques de phishing par des équipes de sécurité informatique. L'approche proposée peut aider à classer des kits collectés comme étant des « proches co- pies » ou « sauts intellectuels » de kits connus et déjà rencontrés. Cela pourrait faciliter l'identification et classification des nouveaux kits comme des variants de kits plus anciens et connus, et ainsi aider à rationaliser les efforts de contre-mesure.

Abstract

Phishing is still very much an active and growing problem. With the COVID-19 pandemic, the year 2020 saw a peak with more than 200,000 phishing attacks reported. Attackers typically deploy source code in some host website to impersonate a brand, or in general a situation in which a user is expected to provide some personal information of interest to phishers (e.g. credentials, credit card number, etc.). Phishing kits are ready-to-deploy sets of files that can be simply copied to a web server and used almost as they are. Phishing attacks is a topic that has been widely explored from the perspective of countermeasure, such as spam detection in emails or phishing website identification. However, few studies have investigated the server-side source code of phishing kits, partly due to its difficulty of access. In this work, we consider the static similarity analysis of the PHP, JS, HTML source code of 20,871 phishing kits totaling over 180 million lines of code, that have been collected during phishing attacks and recovered by forensics teams. The proposed approach may help classifying new incoming phishing kits as "near-copy" or "intellectual leaps" from known and already encountered kits. This could facilitate the identification and classification of new kits as derived from older known kits, and help rationalize countermeasure efforts.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Ettore Merlo et Guy-Vincent Jourdan
URL de PolyPublie:	https://publications.polymtl.ca/9161/
Université/École:	Polytechnique Montréal
Date du dépôt:	10 nov. 2021 15:35
Dernière modification:	26 sept. 2024 12:39

Citer en APA 7:	Margier, M. (2021). Analyse de similarité de kits de phishing en PHP, HTML et JavaScript [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/9161/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document