Master's thesis (2022)
Open Access document in PolyPublie |
|
Open Access to the full text of this document Terms of Use: All rights reserved Download (10MB) |
Abstract
Music has been an artful way of expression, and since it is based on sounds, musicians transcribed their music so it can be shared and used by others. Several notation systems exist for music, such as the standard music notation and guitar tablature. When musicians transcribe an existing musical piece or write down a song they are composing, they notate the music manually. This makes the process long, tedious and error-prone mostly for amateur guitarists. Thus, several studies were conducted on automating transcription in many contexts and for different instruments. Some of these methods are based on audio signal processing, while others are based on computer vision or a combination of both. The instrument of interest in this work is the guitar. The guitar is a musical instrument that has been existing for a long time and it is widely used across a wide spectrum of music styles across the globe, and it is one of the instruments used for research towards developing more robust automatic transcription of tablature. Unlike the standard music notation, which is not specific to any instrument, guitar tablature is. The latter is a notation created specifically for stringed instruments such as the guitar or the bass. Tablature displays which fret to press and on which string, which is a piece of information that the standard music notation lacks, and this is important since the same pitch exists in many different places on a guitar fretboard. Thus, the aim of this work was to develop an automatic transcription system producing a guitar tablature from the analysis of video images of a guitarist playing the instrument. Furthermore, our system relies only on visual information to perform the task of transcription since we believe that a computer vision approach is more suited for the tablature transcription problem. An approach based on audio processing would increase the complexity of the task, especially when dealing with chords (multiple notes at the same time), frets and strings. In the case of processing audio signal, the pitch can be recognized, however, a string timbre is a must-know since the same pitch can exist on different string/fret combinations; in addition to requiring to know the tuning of the guitar beforehand. The system developed in this work, uses videos that encodes both color and depth information through the use of a RGBD camera. The RGB frames are used in all stages of the project while depth maps are only used during hand pose estimation and post-processing. Indeed, the approach adopted in this work is comprised of many stages that include segmentation, hand pose estimation, optical flow and post-processing.
Résumé
La musique est un art d'expression auditive, beaucoup de musiciens écoutent et jouent de la musique. Ces derniers partagent leurs musiques en forme écrite (notation) grâce à la transcription. Plusieurs notations existent, comme la notation musicale standard (la portée) et les tablatures de la guitare. La transcription ou l'écriture d'une pièce musicale en cours de composition est faite généralement à la main, toutefois le processus est long, fastidieux et prone aux erreurs. Pour cela, plusieurs travaux ont porté sur l'automatisation de cette tâche. Les approches proposées utilisent la vision par ordinateur, le traitement du signal audio ou bien une combinaison des deux. Dans ce travail, nous nous intéressons à un instrument en particulier, commun et utilisé presque partout aujourd'hui, la guitare. Pour partager des pièces musicales destinées à être jouées sur une guitare, les guitaristes peuvent utiliser la tablature ou bien la notation standard. Cette dernière est plus généraliste (c'est-à-dire peut être utilisée par des instruments différents) et se concentre sur la note et la durée de cette dernière. Hors, dans le cas de la guitare, une même note peut etre jouée sur différentes cordes et frettes de la guitare. Ainsi, la tablature offre une notation plus directe puisqu'elle indique exactement la corde à gratter et la frette à presser. Ces informations sont absentes dans la notation musicale standard. Puisque le traitement par audio nécessite une connaissance a priori sur le réglage des cordes ainsi que leurs timbres, en plus de ne pas pouvoir savoir la frette et la corde jouée sans savoir les timbres des cordes, une approche basée sur le traitement du signal audio semble complexe. Par conséquent, dans ce travail, nous proposons une méthode de transcription se basant uniquement sur des vidéos. Dans l'objectif de développer un système de transcription automatique basée sur la vision par ordinateur, nous avons utilisé une camera RGBD de grade commercial, qui offre à la fois des trames RGB ainsi que des cartes de profondeur. Les trames RGB sont utilisées pour la segmentation de la guitare, l'estimation de la pose de la main, le calcul du flux optique et le post-traitement; tandis que les cartes de profondeur sont utilisées pour l'estimation de la pose de la main et le post-traitement. Dans le but d'entrainer un modèle d'apprentissage profond pour la segmentation automatique du manche de la guitare dans les trames RGB, nous commençons par construire notre propre base de données.
Department: | Department of Computer Engineering and Software Engineering |
---|---|
Program: | Génie informatique |
Academic/Research Directors: | Lama Séoud and Guillaume-Alexandre Bilodeau |
PolyPublie URL: | https://publications.polymtl.ca/10470/ |
Institution: | Polytechnique Montréal |
Date Deposited: | 06 Feb 2023 14:43 |
Last Modified: | 25 Sep 2024 23:00 |
Cite in APA 7: | Asmar, M. (2022). A Computer Vision-Based Automatic Transcription of Guitar Music from RGBD Videos [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10470/ |
---|---|
Statistics
Total downloads
Downloads per month in the last year
Origin of downloads