<  Back to the Polytechnique Montréal portal

Analyse de similarité de kits de phishing en PHP, HTML et JavaScript

Mathieu Margier

Master's thesis (2021)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (2MB)
Show abstract
Hide abstract

Abstract

Phishing is still very much an active and growing problem. With the COVID-19 pandemic, the year 2020 saw a peak with more than 200,000 phishing attacks reported. Attackers typically deploy source code in some host website to impersonate a brand, or in general a situation in which a user is expected to provide some personal information of interest to phishers (e.g. credentials, credit card number, etc.). Phishing kits are ready-to-deploy sets of files that can be simply copied to a web server and used almost as they are. Phishing attacks is a topic that has been widely explored from the perspective of countermeasure, such as spam detection in emails or phishing website identification. However, few studies have investigated the server-side source code of phishing kits, partly due to its difficulty of access. In this work, we consider the static similarity analysis of the PHP, JS, HTML source code of 20,871 phishing kits totaling over 180 million lines of code, that have been collected during phishing attacks and recovered by forensics teams. The proposed approach may help classifying new incoming phishing kits as "near-copy" or "intellectual leaps" from known and already encountered kits. This could facilitate the identification and classification of new kits as derived from older known kits, and help rationalize countermeasure efforts.

Résumé

Le phishing est une menace qui demeure active et en pleine croissance. Avec la pandémie de la COVID-19, l'année 2020 a vu un pic avec plus de 200 000 attaques signalées. Les attaquants déploient typiquement du code source sur un serveur de site web pour usurper une marque, ou imiter une situation dans laquelle il est attendu de l'utilisateur de renseigner des informations personnelles que les attaquants convoitent (comme des identifiants, numéros de carte de crédit, etc.). Les kits de phishing sont un ensemble de fichiers prêts à être déployés, qui peuvent simplement être copiés sur un serveur web et être quasiment utilisés tels quels. Les attaques de phishing sont un sujet qui a été largement exploré sous l'angle de la contre- mesure, avec la détection de spam dans les courriels, ou l'identification de sites web de phishing. Cependant, peu d'études se focalisent sur le code source côté serveur des kits de phishing, en partie à cause de sa difficulté d'accès. Dans ce travail, on considère l'analyse statique de la similarité du code source PHP, JS, HTML de 20 871 kits de phishing, totalisant plus de 180 millions de lignes de code. Ces kits ont été collectés pendant des attaques de phishing par des équipes de sécurité informatique. L'approche proposée peut aider à classer des kits collectés comme étant des « proches co- pies » ou « sauts intellectuels » de kits connus et déjà rencontrés. Cela pourrait faciliter l'identification et classification des nouveaux kits comme des variants de kits plus anciens et connus, et ainsi aider à rationaliser les efforts de contre-mesure.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Ettore Merlo and Guy-Vincent Jourdan
PolyPublie URL: https://publications.polymtl.ca/9161/
Institution: Polytechnique Montréal
Date Deposited: 10 Nov 2021 15:35
Last Modified: 20 Apr 2023 20:32
Cite in APA 7: Margier, M. (2021). Analyse de similarité de kits de phishing en PHP, HTML et JavaScript [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/9161/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item