<  Retour au portail Polytechnique Montréal

Ajout de structure aux modèles génératifs de séquences avec la programmation par contraintes

Virasone Manibod

Mémoire de maîtrise (2022)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (2MB)
Afficher le résumé
Cacher le résumé

Résumé

Grâce aux avancées de l'apprentissage automatique, il est possible de générer de nouveaux contenus réalistes comme des textes et de la musique. Plusieurs de ces contenus sont modélisés sous la forme d'une séquence, soit une suite ordonnée d'éléments. Cependant, une des difficultés des modèles génératifs de séquences est de manifester une structure dans les exemplaires générés. Par exemple, une phrase ne doit généralement contenir qu'un seul verbe relié à un sujet ou encore, toutes les notes d'une mélodie doivent être en consonance. Ces structures peuvent être requises selon des connaissances préalables ou désirées. Lors de l'entraînement, il n'y a pas de garantie que le modèle puisse efficacement apprendre de telles structures à travers le jeu de données. Ainsi, imposer explicitement la structure par le biais de contraintes pourrait assurer la génération de séquences valides ou souhaitées. L'objectif du projet est de développer une méthode permettant de contraindre la sortie d'un modèle génératif de séquences. Il est possible d'approcher ce problème lors de l'entraînement ou lors de l'inférence. Dans ce mémoire, nous attaquons le problème lors de la phase d'inférence. En effet, cela permet d'éviter de réentraîner le modèle. Nous faisons aussi nos expériences dans le domaine de la génération de musique, puisque c'est un domaine où le contrôle est toujours un défi actuel. Nous nous basons sur un modèle d'apprentissage automatique représentatif de l'état de l'art, soit le Chord-conditioned Melody Transformer (CMT). Ce modèle génère une mélodie selon une suite d'accords donnée. Afin de contraindre les séquences, nous exprimons une structure en utilisant la programmation par contraintes (CP). Cette dernière a l'utilité d'être déclarative et flexible. Par conséquent, il est possible d'exprimer une grande diversité de contraintes. Nous utilisons le solveur MiniCPBP permettant d'effectuer des itérations de belief propagation (BP) afin d'approximer la probabilité qu'une valeur d'une variable fasse partie d'une solution réalisable. Afin d'intégrer la distribution de probabilité du CMT dans le processus de BP, la contrainte oracle est incluse dans le modèle CP. Cette contrainte associe une probabilité marginale à chaque valeur d'une variable. Elle n'impose donc aucune relation. Par conséquent, à chaque pas de temps, les marginales résultantes de la BP sont représentatives du style appris par CMT et des contraintes du modèle CP. À travers différentes expériences, diverses contraintes à long terme ont été imposées sur les mélodies (ex., augmentation graduelle de la densité de notes, nombre différent de notes par mesure et présence de toutes les notes de la tonalité). Pour toutes ces contraintes, nous avons fait face au problème de procrastination qui consiste à ignorer les contraintes jusqu'au dernier moment possible aboutissant à des mélodies souvent particulières.

Abstract

With the recent progress of machine learning, models are now able to produce original realistic content like text or music. However, one popular way of representing these types of content is in a sequential manner. One of the difficulties of sequence generative models in machine learning is that they often struggle to exhibit structure in the generated sequences. For example, a sentence usually needs a predicate and an agent that is performing the action, or a melody needs to stay in the key. Therefore, depending on the domain, such structure can be desired or mandatory to have valid sequences. Relying on the model to learn such structure through the dataset sometimes cannot be reliable because there is no guarantee. For that reason, explicitly imposing constraints may be a solution to the problem. The objective of this thesis is to develop a method able to constrain the output of a generative sequence model. We tackle the problem during the inference phase where the constraints will guide the generation of the sequences of a pre-trained machine learning model. We also experiment in the domain of music generation where controllability is a common challenge. We build on the Chord-conditioned Melody Transformer (CMT), a state-of-the-art model able to generate a melody based on a given chord progression. The structure to be imposed is expressed as a constraint programming (CP) model. With the high-level modeling and flexibility of CP, many different types of constraints can be enforced. The CP solver used is MiniCPBP which is able to perform belief propagation (BP) to obtain a probability distribution that considers the respect of the constraints. For that distribution to also take into account the music style learned, the probability distribution from CMT is given at each generation step through the oracle constraint. That constraint does not enforce any kind of relation between variables. Instead, it associates a marginal probability for each value in the domain of a variable. Thus, the resulting distribution obtained after the process of BP is able to also consider the musical style learned from CMT. Through different experiments, different long-term constraints were imposed on the melodies such as having increasing number of notes, a different number of notes in each bar and the occurrence of every pitch class in the key. We found that our method has been confronted with the procrastination problem when imposing long-term constraints. Indeed, the overall model is almost ignoring the respect of the constraints until the last moment while the sequence is being generated. This phenomenon resulted in very odd melodies. Thus, to mitigate the problem, the impact of the CMT's marginals during BP is reduced. However, this will result in melodies that are less similar than the style learned by CMT.

Département: Département de génie informatique et génie logiciel
Programme: Génie informatique
Directeurs ou directrices: Gilles Pesant
URL de PolyPublie: https://publications.polymtl.ca/10495/
Université/École: Polytechnique Montréal
Date du dépôt: 06 févr. 2023 14:48
Dernière modification: 08 avr. 2024 10:23
Citer en APA 7: Manibod, V. (2022). Ajout de structure aux modèles génératifs de séquences avec la programmation par contraintes [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10495/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document