Master's thesis (2024)
![]() |
Restricted to: Repository staff only until 11 October 2025 Terms of Use: All rights reserved |
Abstract
Successful music generation with AI techniques requires musical consistency, referring to the repetition of identical or similar musical segments. Sequences generated with Machine Learning (ML) models can imitate the dataset quite fruitfully but have difficulty exhibiting long-term structure. This is because the structure is not explicitly learned during training, and there’s no guarantee that sequential models like LSTMs or Transformers will grasp the structure inherent in the dataset. One way to address this problem is by imposing structure through constraints. The sequences from a generation model can be constrained during training or inference. Previous work combined Constraint Programming (CP) with an ML model at inference time to provide structure to the generated sequences. This ML model, named the Chord Conditioned Melody Transformer (CMT), generates a melody token by token based on an input chord sequence. It produces a probability distribution over the domain of the current token at each time step. With CP based with belief propagation (CPBP), implemented in the MiniCPBP solver, it is possible to alter the probability distribution from which the next token is sampled by the CMT during inference. A new constraint named oracle is responsible for integrating CPBP into the CMT. The newly created model is called the CMT-CPBP. The focus of this research was the successful combination of these techniques rather than the improvement of the generated melodies. In this thesis, we explore this work further by automatically injecting constraints closely related to the style of the corpus on which the ML model was trained. We first execute pattern detection on our dataset regarding pitches, rhythms, and intervals, and then identify trends within the noted patterns. These trends are represented using heatmaps. The first analysis highlights the distribution of patterns within the dataset based on their position in the song and their length. The second analysis expresses the correlation between the sections of a song within the dataset. Subsequently, these trends are used to create constraints used in the CP models, allowing the imposition of patterns inspired by the data. The goal is to produce music samples that express the intended long-term structure while still remaining faithful to the style of the corpus. Melodies were generated in three experiments where a parameter representing the relevance of imposed patterns varied. These melodies were evaluated subjectively through a survey where participants compared a sample produced by the CMT-CPBP with patterns to a sample produced by the CMT. The results demonstrate that the CMT-CPBP with patterns improves the generated melodies and that the varying parameter has a significantly positive impact on the quality of the generated samples.
Résumé
La génération de musique réussie avec des techniques d’intelligence artificielle nécessite une cohérence musicale, soit la répétition de segments musicaux identiques ou similaires. Les séquences générées par des modèles d’apprentissage automatique peuvent imiter l’ensemble de données assez fructueusement, mais peinent à présenter une structure à long terme. En effet, puisque la structure n’est pas explicitement apprise durant l’entraînement, il n’y a aucune assurance que les modèles séquentiels tels que les LSTMs ou les Transformers parviendront à saisir la structure inhérente à l’ensemble de données. Une façon d’aborder ce problème est en imposant une structure au moyen de contraintes. Les séquences d’un modèle de génération peuvent être contraintes durant l’entraînement ou l’inférence. Des travaux antérieurs ont combiné la programmation par contraintes (CP) avec un modèle d’apprentissage automatique (ML) lors de l’inférence pour structurer les séquences générées. Ce modèle ML, nommé le Chord Conditioned Melody Transformer (CMT), génère une mélodie jeton par jeton basée sur une séquence d’accords fournie en entrée. Celui-ci produit une distribution de probabilité sur le domaine du jeton courant à chaque pas de temps. La CP jumelée à la belief propagation (CPBP) dans le solveur MiniCPBP permet d’altérer la distribution de probabilité à partir de laquelle le prochain jeton est échantillonné par le CMT durant l’inférence. Une nouvelle contrainte nommée oracle est responsable de l’incorporation de la CPBP dans le CMT. Le nouveau modèle ainsi formé est appelé le CMT-CPBP. Le point focal de ces travaux étaient de combiner ces techniques avec succès plutôt que d’améliorer les extraits musicaux produits. Dans ce mémoire, cette approche est explorée davantage en injectant automatiquement des contraintes étroitement liées au style du corpus sur lequel le CMT a été entraîné. Une détection de patrons concernant les notes, les rythmes et les intervalles est d’abord effectuée sur l’ensemble de données à l’aide d’expressions régulières. Puis, les tendances parmi les patrons trouvés sont analysées et représentées avec des cartes thermiques. La première analyse permet de mettre en valeur la répartition des patrons de l’ensemble de données en fonction de leur position dans la pièce et de leur longueur. La seconde analyse exprime la corrélation entre les sections d’une pièce de l’ensemble de données. Par la suite, ces tendances servent à créer des contraintes dans les modèles CP qui permettent d’imposer des patrons inspirés des données. L’objectif est de produire, grâce à ces contraintes, des extraits de musique qui expriment la structure à long terme visée tout en restant fidèle au style du corpus. Des mélodies ont été générées dans le cadre de trois expériences où un paramètre exprimant la pertinence des patrons imposés a varié. Celles-ci ont été évaluées de façon subjective par un sondage où les participants ont dû comparer un extrait produit par le CMT-CPBP avec patrons à un extrait produit par le CMT. Les résultats démontrent que le CMT-CPBP avec patrons permet d’améliorer les mélodies générées et que le paramètre qui a varié a un impact positif important sur la qualité des extraits générés.
Department: | Department of Computer Engineering and Software Engineering |
---|---|
Program: | Génie informatique |
Academic/Research Directors: |
Gilles Pesant |
PolyPublie URL: | https://publications.polymtl.ca/58348/ |
Institution: | Polytechnique Montréal |
Date Deposited: | 11 Oct 2024 13:18 |
Last Modified: | 18 Mar 2025 03:24 |
Cite in APA 7: | Demers, L.-C. (2024). Génération de musique avec structure à long terme en combinant la programmation par contraintes et l'apprentissage automatique [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/58348/ |
---|---|
Statistics
Total downloads
Downloads per month in the last year
Origin of downloads