<  Retour au portail Polytechnique Montréal

Mise à l'échelle des analyses de trace dans une architecture modulaire

Ahmad Faour

Mémoire de maîtrise (2024)

[img] Accès restreint: Personnel autorisé jusqu'au 11 octobre 2025
Conditions d'utilisation: Tous droits réservés
Demander document
Afficher le résumé
Cacher le résumé

Résumé

Les systèmes de calcul de haute performance deviennent de plus en plus nécessaires pour répondre aux besoins auxquels nous sommes confrontés afin de fournir des services dont des millions d’utilisateurs dépendent chaque jour. Il est donc important de disposer d’outils axés sur la compréhension du fonctionnement du système, en collectant les informations nécessaires permettant de dresser des analyses. Dans ce contexte, le traçage, qui est une technique largement connue permettant de collecter les informations sur les fonctionnements internes et les états du système, constitue l’une des meilleures approches. Dans ce cas précis, l’information collectée nécessite le développement de visualisations basées sur des analyses définies en amont, et permettant l’interaction avec l’utilisateur dans son cycle de développement et d’opération. Il existe des solutions pour analyser les traces collectées dans les systèmes de calcul de haute performance, mais aucune d’entre elles ne résout complètement les besoins en évolutivité du traitement des analyses et en flexibilité du développement des analyses. Par conséquent, nous proposons une nouvelle solution qui permet la mise à l’échelle des analyses dans une architecture modulaire. Notre travail s’étend à l’implémentation d’une architecture distribuée visant à accroître l’évolutivité des outils d’analyse et visant à résoudre les problèmes de flexibilité lors du développement d’analyses. De plus, nous avons étendu le Trace Server Protocol. Cela nous a permis d’implémenter des analyses globales à l’échelle d’une grappe de calcul et faciliter l’analyse des traces connectées en exploitant les évènements réseaux. Des bancs de tests ont été menés afin d’évaluer le gain en performance et le surcoût associés à l’architecture distribuée Maître-Ouvrier par rapport à l’approche précédente, l’architecture distribuée client-serveur. En conclusion, les résultats montrent un gain en performance significatif en fonction du nombre de noeuds mis en place et indiquent un faible surcoût. La majorité du surcoût est causée par la sérialisation du format JSON. Nous avons conclu que la solution pourrait facilement être portée dans les systèmes de calcul de haute performance, mais aussi dans tout système distribué qui nécessite une puissance d’analyse de traces supérieure et une vaste gamme d’options d’analyse. Cependant, dans les cas où le volume des traces est faible, le gain pourrait être nul ou même se transformer en légère perte.

Abstract

High-performance computing systems are becoming increasingly necessary to meet the demands of services used by millions of users every day. Therefore, it is important to have tools focused on understanding system operation by collecting necessary information for analysis. In this context, tracing, a widely known technique for gathering information on internal operations and system states, emerges as one of the best approaches. In this specific case, the collected information requires the development of visualizations based on predefined analyses, enabling interaction with the user in their development. While there are solutions for analyzing traces collected in high-performance computing systems, none completely address the scalability needs of analysis processing and the flexibility of analysis development. Therefore, we propose a new solution that enables scalable analysis within a modular architecture. Our work extends to the implementation of a distributed architecture aimed at increasing the scalability of analysis tools. This modular distributed architecture is designed to address flexibility issues encountered during analysis development. It extends the Trace-Server-Protocol to enable global analysis at the scale of a computing cluster and to facilitate the analysis of connected traces by leveraging network events. We conducted a benchmark to evaluate the performance gain and associated overhead of the Master-Worker distributed architecture compared to the previous Client-Server distributed architecture. In conclusion, the results demonstrate a significant performance gain based on the number of nodes deployed and indicate a low overhead. The majority of the overhead is caused by JSON serialization. We concluded that the solution could easily be implemented in highperformance computing systems as well as any distributed system requiring enhanced trace analysis capabilities and a wide range of analysis options. However, in cases where trace volume is low, no performance or even a degradation may be experienced.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Michel Dagenais
URL de PolyPublie: https://publications.polymtl.ca/58336/
Université/École: Polytechnique Montréal
Date du dépôt: 11 oct. 2024 13:27
Dernière modification: 09 avr. 2025 17:11
Citer en APA 7: Faour, A. (2024). Mise à l'échelle des analyses de trace dans une architecture modulaire [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/58336/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Loading...

Provenance des téléchargements

Loading...

Actions réservées au personnel

Afficher document Afficher document