<  Back to the Polytechnique Montréal portal

Algorithms and Learning Models for Bug Report Deduplication

Irving Muller Rodrigues

Ph.D. thesis (2022)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (3MB)
Show abstract
Hide abstract

Abstract

In software projects, a popular practice is to employ Bug Tracking Systems (BTSs) to manage and track records of bugs. A crucial task for BTSs consists in identifying whether a new report describes a bug that was previously reported or not, i.e., if it is a duplicate report. Deduplication is also particularly relevant for projects where applications are equipped with automated crash reporting systems. These systems are able to automatically collect information about a crash, then grouping it in a so-called crash report. Given the current industrial practice, repositories of crash reports contain a significant amount of duplicate crash reports and, thus, their detection is important for an effective software maintenance process. Due to the considerable submission volume, specially in applications with a wide user base, the manual deduplication of new reports in both BTSs and crash repositories can be time-consuming and laborious. Hence, in practice, such task requires the support of automatic methods.

Résumé

Dans les projets logiciels, une pratique courante consiste à utiliser des système de suivi des bugs (BTSs) afin de gérer et suivre les enregistrements de bogues. Une tâche cruciale pour les BTS consiste à identifier si un nouveau rapport décrit un bogue qui a déjà été signalé, c'est-à-dire s'il s'agit d'un rapport double. La déduplication est également particulièrement pertinente pour les projets dans lesquels les applications sont équipées de systèmes automatisés de signalement des plantages. Ces systèmes sont capables de collecter automatiquement les informations sur un platage et ils regroupent ces informations dans un document, appelé rapport de plantage, qui est soumis dans des les référentiels des plantages. Une partie importante des rapports soumis est en double et, par conséquent, leur détection est importante pour un processus de maintenance logicielle efficace. En raison du volume considérable de soumissions, en particulier dans les applications avec une large base d'utilisateurs, la déduplication manuelle des nouveaux rapports dans les BTS et dans les les référentiels de plantages peut être longue et laborieuse. Par conséquent, en pratique, une telle tâche nécessite le soutien de méthodes automatiques.

Department: Department of Computer Engineering and Software Engineering
Program: Génie informatique
Academic/Research Directors: Daniel Aloise and Michel Dagenais
PolyPublie URL: https://publications.polymtl.ca/10297/
Institution: Polytechnique Montréal
Date Deposited: 07 Oct 2022 14:47
Last Modified: 13 Oct 2023 01:38
Cite in APA 7: Muller Rodrigues, I. (2022). Algorithms and Learning Models for Bug Report Deduplication [Ph.D. thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10297/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item