<  Back to the Polytechnique Montréal portal

Analyse de similarité de kits de phishing en PHP, HTML et JavaScript

Mathieu Margier

Masters thesis (2021)

[img] Terms of Use: All rights reserved.
Restricted to: Repository staff only until 10 November 2022.
Cite this document: Margier, M. (2021). Analyse de similarité de kits de phishing en PHP, HTML et JavaScript (Masters thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/9161/
Show abstract Hide abstract

Abstract

RÉSUMÉ : Le phishing est une menace qui demeure active et en pleine croissance. Avec la pandémie de la COVID-19, l’année 2020 a vu un pic avec plus de 200 000 attaques signalées. Les attaquants déploient typiquement du code source sur un serveur de site web pour usurper une marque, ou imiter une situation dans laquelle il est attendu de l’utilisateur de renseigner des informations personnelles que les attaquants convoitent (comme des identifiants, numéros de carte de crédit, etc.). Les kits de phishing sont un ensemble de fichiers prêts à être déployés, qui peuvent simplement être copiés sur un serveur web et être quasiment utilisés tels quels. Les attaques de phishing sont un sujet qui a été largement exploré sous l’angle de la contre- mesure, avec la détection de spam dans les courriels, ou l’identification de sites web de phishing. Cependant, peu d’études se focalisent sur le code source côté serveur des kits de phishing, en partie à cause de sa difficulté d’accès. Dans ce travail, on considère l’analyse statique de la similarité du code source PHP, JS, HTML de 20 871 kits de phishing, totalisant plus de 180 millions de lignes de code. Ces kits ont été collectés pendant des attaques de phishing par des équipes de sécurité informatique. L’approche proposée peut aider à classer des kits collectés comme étant des « proches co- pies » ou « sauts intellectuels » de kits connus et déjà rencontrés. Cela pourrait faciliter l’identification et classification des nouveaux kits comme des variants de kits plus anciens et connus, et ainsi aider à rationaliser les efforts de contre-mesure.----------ABSTRACT : Phishing is still very much an active and growing problem. With the COVID-19 pandemic, the year 2020 saw a peak with more than 200,000 phishing attacks reported. Attackers typically deploy source code in some host website to impersonate a brand, or in general a situation in which a user is expected to provide some personal information of interest to phishers (e.g. credentials, credit card number, etc.). Phishing kits are ready-to-deploy sets of files that can be simply copied to a web server and used almost as they are. Phishing attacks is a topic that has been widely explored from the perspective of countermeasure, such as spam detection in emails or phishing website identification. However, few studies have investigated the server-side source code of phishing kits, partly due to its difficulty of access. In this work, we consider the static similarity analysis of the PHP, JS, HTML source code of 20,871 phishing kits totaling over 180 million lines of code, that have been collected during phishing attacks and recovered by forensics teams. The proposed approach may help classifying new incoming phishing kits as "near-copy" or "intellectual leaps" from known and already encountered kits. This could facilitate the identification and classification of new kits as derived from older known kits, and help rationalize countermeasure efforts.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Academic/Research Directors: Ettore Merlo and Guy-Vincent Jourdan
Date Deposited: 10 Nov 2021 15:35
Last Modified: 10 Nov 2021 15:35
PolyPublie URL: https://publications.polymtl.ca/9161/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only