<  Retour au portail Polytechnique Montréal

Performance Analysis of Data Stream Processing Systems

Reza Rouhghalandari

Mémoire de maîtrise (2024)

[img] Accès restreint: Personnel autorisé jusqu'au 5 mars 2026
Conditions d'utilisation: Tous droits réservés
Afficher le résumé
Cacher le résumé

Résumé

L’utilisation des mégadonnées (big data) est indispensable dans les environnements d’affaires contemporains, où elle joue un rôle crucial dans l’amélioration des processus de prise de décision. Les volumes énormes de Big Data nécessitent non seulement un traitement en temps réel efficace, mais également des plateformes robustes capables de gérer une telle complexité. À cet égard, Apache Spark s’est imposé comme une plateforme prééminente, largement reconnue pour sa maturité et sa haute performance au sein de l’écosystème des grandes données. Malgré ses capacités, la performance d’Apache Spark peut souffrir de plusieurs problèmes, tels que des limitations matérielles, des problèmes de réseau et des configurations inappropriées, qui peuvent réduire significativement l’efficacité opérationnelle dans divers contextes d’utilisation. En réponse à ces défis, ce mémoire introduit une approche novatrice et peu intrusive à l’analyse de la performance spécifiquement conçue pour les applications de flux de données, avec Apache Spark servant d’étude de cas fondamentale. Cette approche combine de manière créative le traçage d’applications à double niveau avec une architecture de collecte de traces complète qui intègre à la fois les données de journalisation et le traçage au niveau du noyau. Cette stratégie de traçage double est conçue pour capturer une perspective granulaire et à deux volets des opérations système, permettant une analyse détaillée que les méthodes de traçage à couche unique pourraient manquer. Le coeur de cette méthodologie réside dans sa capacité à produire des visualisations interactives qui illustrent la dynamique opérationnelle du système, permettant ainsi aux utilisateurs d’identifier et de comprendre les problèmes de performance plus efficacement. Ces visualisations servent d’outil crucial pour diagnostiquer et résoudre les goulets d’étranglement de performance, fournissant des résultats à la fois exploitables et faciles à comprendre. Les résultats expérimentaux préliminaires ont validé l’efficacité de cette approche, démontrant qu’elle entraîne une surcharge système modeste d’environ 5%. Une telle faible surcharge garantit que l’analyse de la performance peut être menée dans un contexte quasi temps réel sans impacter significativement la performance globale du système. Cette thèse vise à élargir la compréhension actuelle de l’analyse de la performance dans le traitement des grandes données en détaillant le développement et l’application de cette nouvelle méthodologie. Elle examine les effets plus larges du traçage à double niveau sur l’amélioration de la performance et de la fiabilité des plateformes de grandes données à travers des expériences et des analyses approfondies. Cela conduit à des méthodes plus efficaces et fiables de traitement des grandes données.

Abstract

The utilization of big data is essential in modern business environments, where it plays a crucial role in enhancing decision-making processes. Big Data’s vast volumes necessitate not only efficient real-time processing but also robust platforms capable of handling such complexity. Apache Spark has emerged as a leading platform in this regard, widely recognized for its maturity and high performance within the big data ecosystem. Despite its capabilities, Apache Spark’s performance can suffer from a number of issues, such as hardware limitations, network problems, and improper configurations, which can significantly reduce operational efficiency in various usage contexts. In response to these challenges, this thesis introduces a novel and minimally intrusive approach to performance analysis specifically designed for streaming applications, with Apache Spark serving as the foundational case study. This approach creatively combines dual-level application tracing with a comprehensive trace collection architecture that integrates both log data and kernel-level tracing. This dual tracing strategy is designed to capture a granular, two-fold perspective of system operations, enabling a detailed analysis that traditional single-layer tracing methods may miss. The core of this methodology lies in its ability to produce interactive visualizations that illustrate the system’s operational dynamics, thereby allowing users to identify and understand potential performance issues more effectively. These visualizations serve as a crucial tool for diagnosing and resolving performance bottlenecks, delivering findings that are both actionable and easy to understand. Preliminary experimental results have validated the efficacy of this approach, demonstrating that it incurs a modest system overhead of approximately 5%. Such a low overhead ensures that the performance analysis can be conducted in a near real-time context without significantly impacting the overall system performance. This thesis aims to expand the current understanding of performance analysis in big data processing by detailing the development and application of this new methodology. It examines the broader impacts of dual-level tracing on improving the performance and reliability of big data platforms through in-depth experiments and analyses. This leads to more efficient and reliable ways of processing big data.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Michel Dagenais
URL de PolyPublie: https://publications.polymtl.ca/58736/
Université/École: Polytechnique Montréal
Date du dépôt: 05 mars 2025 14:31
Dernière modification: 11 avr. 2025 04:36
Citer en APA 7: Rouhghalandari, R. (2024). Performance Analysis of Data Stream Processing Systems [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/58736/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Loading...

Provenance des téléchargements

Loading...

Actions réservées au personnel

Afficher document Afficher document