<  Back to the Polytechnique Montréal portal

System Performance Anomaly Detection using Tracing Data Analysis

Iman Kohyarnejadfard

Ph.D. thesis (2022)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (11MB)
Show abstract
Hide abstract

Abstract

Advances in technology and computing power have led to the emergence of complex and large-scale software architectures in recent years. The conventional central processing units are now getting support from co-processing units to speed up different tasks. The result of these improvements can be seen in distributed systems, Microservices, IoT devices, and cloud environments that have become increasingly complex as they grow in both scale and functionality. In such systems, a simple task involves many cores in parallel, possibly on multiple nodes, and also, a single operation can be served in different ways by different cores and physical nodes. Moreover, several factors, such as their distribution in the network, the use of different technologies, their short life, software bugs, hardware failures, and resource contentions, make these systems prone to the rise of anomalous system behaviors. The high degree of complexity and inherent distribution of small services makes understanding the performance of such environments challenging. Besides, available performance monitoring and analysis tools have many shortcomings.

Résumé

Les progrès technologiques et l'augmentation de la puissance de calcul ont récemment conduit à l'émergence d'architectures logicielles complexes et à grande échelle. Les unités centrales de traitement conventionnelles sont maintenant soutenues par des unités de co-traitement pour accélérer différentes tâches. L'impact de ces améliorations peut être observé dans les systèmes distribués, les microservices, les appareils IdO (internet of things ou IoT en anglais) et les environnements infonuagiques qui sont devenus de plus en plus complexes à mesure qu'ils grandissent en termes d'échelle et de fonctionnalités. Dans de tels systèmes, une tâche simple engage de nombreux coeurs en parallèle, potentiellement sur plusieurs noeuds, et une même opération peut être servie de différentes manières par différents coeurs et nœuds physiques. De plus, plusieurs facteurs tels que leur distribution dans le réseau, l'utilisation de différentes technologies, leur courte durée de vie, les bogues logiciels, les pannes matérielles et les conflits de ressources rendent ces systèmes sujets à la montée de comportements anormaux. Le haut degré de complexité et la distribution inhérente des petits services compliquent la compréhension des performances de ces environnements. En outre, les outils de surveillance et d'analyse des performances disponibles présentent de nombreuses lacunes.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Daniel Aloise and Michel Dagenais
PolyPublie URL: https://publications.polymtl.ca/10281/
Institution: Polytechnique Montréal
Date Deposited: 07 Oct 2022 14:47
Last Modified: 26 Jul 2023 12:14
Cite in APA 7: Kohyarnejadfard, I. (2022). System Performance Anomaly Detection using Tracing Data Analysis [Ph.D. thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10281/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item