<  Retour au portail Polytechnique Montréal

Low-Impact Operating System Tracing

Mathieu Desnoyers

Thèse de doctorat (2009)

[img]
Affichage préliminaire
Télécharger (1MB)
Citer ce document: Desnoyers, M. (2009). Low-Impact Operating System Tracing (Thèse de doctorat, École Polytechnique de Montréal). Tiré de http://publications.polymtl.ca/206/

Résumé

Abstract Computer systems, both at the hardware and software-levels, are becoming increasingly complex. In the case of Linux, used in a large range of applications, from small embedded devices to high-end servers, the size of the operating system kernels increases, libraries are added, and major software redesign is required to benefit from multi-core architectures, which are found everywhere. As a result, the software development industry and individual developers are facing problems which resolution requires to understand the interaction between applications and all components of an operating system. In this thesis, we propose the LTTng (Linux Trace Toolkit next generation) tracer as an answer to the industry and open source community tracing needs. The lowintrusiveness of the tracer is a key aspect to its usefulness, because we need to be able to reproduce, under tracing, problems occurring in normal conditions. In some cases, users leave tracers active at all times in production, which makes the tracer overhead definitely critical. Our approach involves the design of synchronization primitives that meet the low-impact requirements. The linearly scalable and wait-free RCU (Read-Copy Update) synchronization mechanism used by the LTTng tracer fulfills these requirements with respect to data read. A custom-made buffer synchronization scheme is proposed to extract tracing data while preserving linear scalability and wait-free characteristics. By measuring the LTTng impact, we demonstrate that it is possible to create a tracer that satisfy all the following characteristics: low latency, deterministic realtime impact (wait-free), small impact on operating system throughput and linearscalability with the number of cores. Experiments on various architectures show that this tracer is portable. We propose a general model for superscalar multi-core systems with weaklyordered memory accesses to perform formal verification of the RCU correctness and wait-free guarantees by model-checking. The LTTng buffering scheme is also formally verified for safety and progress. Formal verification demonstrates that these algorithms allow reentrancy from multiple execution contexts, ranging from standard thread to non-maskable interrupts handlers, allowing a wide instrumentation coverage of the operating system.----------Résumé Les systèmes informatiques, tant au niveau matériel que logiciel, deviennent de plus en plus complexes. En ce qui concerne Linux, système d’exploitation utilisé dans une vaste catégorie d’applications, des petits systèmes embarqués aux serveurs de haut-niveau, la taille des noyaux de systèmes d’exploitations augmente, des librairies sont ajoutées et une réingénierie logicielle est requise pour bénéficier des architectures multi-coeurs, lesquelles sont omniprésentes. Par conséquent, l’industrie du développement logiciel et les développeurs individuels font face à des problèmes dont la résolution nécessite de comprendre l’interaction entre les applications et tous les composants d’un système d’exploitation. Dans cette thèse, nous proposons le traceur LTTng (Linux Trace Toolkit next generation) comme réponse aux besoins de traçage de l’industrie et de la communauté du logiciel libre. La faible intrusivité du traceur est un aspect clé menant à son utilisabilité, puisqu’il est nécessaire de reproduire, sous traçage, des problèmes observés sous des conditions d’exécution normales. Dans certains cas, les usagers souhaitent laisser des traceurs actifs en tout temps sur des systèmes en production, ce qui rend l’impact en performance définitivement critique. Notre approche implique l’élaboration de primitives de synchronisation qui rencontrent les requis de faible impact. Le mécanisme de synchronisation permettant la mise à l’échelle et sans attente RCU (Read-Copy Update) utilisé par le traceur LTTng remplit ces requis en ce qui concerne la lecture de données. Nous proposons un mécanisme de synchronisation pour extraire les données de traçage en préservant les caractéristiques de mise à l’échelle linéaire et de non-attente. En mesurant l’impact du traceur LTTng, nous démontrons qu’il est possible de créer un traceur qui satisfait toutes les caractéristiques suivantes : faible latence, comportement temps-réel déterministe (sans attente), faible impact sur le débit du système d’exploitation et une mise à l’échelle linéaire par rapport au nombre de processeurs. Une expérimentation sur plusieurs architectures permet d’observer la portabilité du traceur. Nous proposons un modèle général pour les systèmes superscalaires multi-coeurs avec accès mémoire faiblement ordonnés pour permettre la vérification formelle des garanties quant à l’exactitude de l’exécution et l’exécution sans attente à l’aide de la vérification de modèle. Le mécanisme de tampon de LTTng est également vérifié formellement quant à son exactitude et son exécution sans attente. La vérification formelle permet également de démontrer que ces algorithmes permettent la réentrance de plusieurs contextes d’exécution, du fil d’exécution standard aux gestionnaires d’interruptions non-masquables, permettant une large couverture d’instrumentation du système d’exploitation.

Document en libre accès dans PolyPublie
Département: Département de génie informatique et génie logiciel
Directeur de mémoire/thèse: Michel Dagenais
Date du dépôt: 23 mars 2010 14:26
Dernière modification: 01 sept. 2017 17:34
Adresse URL de PolyPublie: http://publications.polymtl.ca/206/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel