<  Back to the Polytechnique Montréal portal

Concepts Extraction from Execution Traces

Soumaya Medini

PhD thesis (2014)

[img]
Preview
Download (1MB)
Cite this document: Medini, S. (2014). Concepts Extraction from Execution Traces (PhD thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/1607/
Show abstract Hide abstract

Abstract

RÉSUMÉ L’identification de concepts est l’activité qui permet de trouver et localiser l’implémentation d’une fonctionnalité d’un logiciel dans le code source. L’identification de concepts permet d’aider les développeurs à comprendre les programmes et de minimiser l’effort de maintenance et d’évolution des logiciels. Dans la littérature, plusieurs approches statiques, dynamiques et hybrides pour l’identification des concepts ont été proposées. Les deux types statiques et dynamiques ont des avantages et des inconvénients et se complètent mutuellement en approches hybrides. Par conséquent, de nombreux travaux récents ont porté sur des approches hybrides pour améliorer les performances en terme de temps et de précision du processus d’identification de concepts. De plus, les traces d’exécution sont souvent trop larges (en termes de nombre de méthodes invoquées) et elles ne peuvent pas être utilisées directement par les développeurs pour les activités de maintenance. Dans cette thèse, nous proposons d’extraire l’ensemble des concepts des traces d’exécution en se basant sur des approches hybrides. En effet durant la maintenance d’un logiciel, les développeurs cherchent à trouver et à comprendre le(s) segment(s) qui implémente(nt) le concept à maintenir au lieu d’analyser en détails toute la trace d’exécution. L’extraction de concepts facilite les tâches de maintenance et d’évolution des logiciels en guidant les développeurs sur les segments qui implémentent les concepts à maintenir et ainsi réduire le nombre de méthodes à analyser. Nous proposons une approche basée sur la programmation dynamique qui divise la trace d’exécution en segments qui représentent des concepts. Chaque segment implémente un et un seul concept et est défini comme une liste ordonnée des méthodes invoquées, c’est-à-dire une partie de la trace d’exécution. Un concept peut être implémenté par un ou plusieurs segments. Ensuite, nous proposons une nouvelle approche (SCAN) pour attacher des étiquettes aux segments de la trace d’exécution. Nous utilisons la recherche d’information (IR) pour extraire une étiquette formée par des mots clés qui définissent le concept implémenté par un segment. Les étiquettes permettent aux développeurs d’avoir une idée du concept implémenté par les méthodes du segment et de choisir les segments qui implémentent les concepts à maintenir. Les segments qui implémentent les concepts à maintenir peuvent être de larges tailles en terme de nombre de méthodes invoquées et ainsi difficiles à comprendre. Nous proposons de diminuer la taille des segments en gardant juste les plus importantes méthodes invoquées. Nous réalisons des expériences pour évaluer si des participants produisent des étiquettes différentes lorsqu’on leur fournit une quantité différente d’informations sur les segments. Nous montrons qu’on conserve 50% ou plus des termes des étiquettes fournies par les participants tout en réduisant considérablement la quantité d’informations, jusqu’à 92% des segments, que les participants doivent traiter pour comprendre un segment. Enfin, nous étudions la précision et le rappel des étiquettes générées automatiquement par SCAN. Nous montrons que SCAN attribue automatiquement des étiquettes avec une précision moyenne de 69% et de un rappel moyen de 63%, par rapport aux étiquettes manuelles produites par au moins deux participants. L’approche SCAN propose aussi l’identification des relations entre les segments d’une même trace d’exécution. Ces relations fournissent une présentation globale et de haut niveau des concepts misent en œuvre dans une trace d’exécution. Ceci permet aux développeurs de comprendre la trace d’exécution en découvrant les méthodes et invocations communes entre les segments. Nous montrons que SCAN identifie les relations entre les segments avec une précision supérieure à 75% dans la plupart des logiciels étudiés. À la fin de cette thèse, nous étudions l’utilité de la segmentation automatique des traces d’exécution et l’affectation des étiquettes durant les tâches d’identification des concepts. Nous prouvons que SCAN est une technique qui supporte les tâches d’identification de concepts. Nous démontrons que l’extraction de l’ensemble des concepts des traces d’exécution présentée dans cette thèse guide les développeurs vers les segments qui implémentent les concepts à maintenir et ainsi réduire le nombre de méthodes à analyser.----------ABSTRACT Concept location is the task of locating and identifying concepts into code region. Concept location is fundamental to program comprehension, software maintenance, and evolution. Different static, dynamic, and hybrid approaches for concept location exist in the literature. Both static and dynamic approaches have advantages and limitations and they complement each other. Therefore, recent works focused on hybrid approaches to improve the performance in time as well as the accuracy of the concept location process. In addition, execution traces are often overly large (in terms of method calls) and they cannot be used directly by developers for program comprehension activities, in general, and concept location, in particular. In this dissertation, we extract the set of concepts exercised in an execution trace based on hybrid approaches. Indeed, during maintenance tasks, developers generally seek to identify and understand some segments of the trace that implement concepts of interest rather than to analyse in-depth the entire execution trace. Concept location facilitates maintenance tasks by guiding developers towards segments that implement concepts to maintain and reducing the number of methods to investigate using execution traces. We propose an approach built upon a dynamic programming algorithm to split an execution trace into segments representing concepts. A segment implements one concept and it is defined as an ordered list of the invoked methods, i.e., a part of the execution trace. A concept may be implemented by one or more segments. Then, we propose SCAN, an approach to assign labels to the identified segments. We uses information retrieval methods to extract labels that consist of a set of words defining the concept implemented by a segment. The labels allow developers to have a global idea of the concept implemented by the segment and identify the segments implementing the concept to maintain. Although the segments implementing the concept to maintain are smaller than the execution traces, some of them are still very large (in terms of method calls). It is difficult to understand a segment with a large size. To help developers to understand a very large segment, we propose to characterise a segment using only the most relevant method calls. Then, we perform an experiment to evaluate the performances of SCAN approach. We investigate whether participants produce different labels when provided with different amount of information on a segment. We show that 50% or more of the terms of labels provided by participants are preserved while drastically reducing, up to 92%, the amount of information that participants must process to understand a segment. Finally, we study the precision and recall of labels that are automatically generated by SCAN. We show that SCAN automatically assigns labels with an average precision and recall of 69% and 63%, respectively, when compared to manual labels produced by merging the labels of at least two participants. SCAN also identifies the relations among execution trace segments. These relations provide a high-level presentation of the concepts implemented in an execution trace. The latter allows developers to understand the execution trace content by discovering commonalities between segments. Results show also that SCAN identifies relations among segments with an overall precision greater than 75% in the majority of the programs. Finally, we evaluate the usefulness of the automatic segmentation of execution traces and assigning labels in the context of concept location. We show that SCAN support concept location tasks if used as a standalone technique. The obtained results guide developers on segments that implement the concepts to maintain and thus reduce the number of methods to analyse.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Dissertation/thesis director: Giuliano Antoniol and Yann-Gaël Guéhéneuc
Date Deposited: 02 Apr 2015 10:47
Last Modified: 27 Jun 2019 16:48
PolyPublie URL: https://publications.polymtl.ca/1607/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only