Active Learning, Controllable Generative Models and Dataset Augmentation

Arantxa Casanova Paga

Thèse de doctorat (2023)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (78MB)

Afficher le résumé

Cacher le résumé

Résumé

D’une part, la création et l’augmentation d’ensembles de données sont des tâches cruciales pour l’apprentissage profond. L’accès à des jeux de données d’images de grande échelle a été essentiel au succès des modèles d’apprentissage profond en vision par ordinateur. Cependant, l’acquisition de grandes collections de données comporte des défis. D’autre part, les modèles génératifs gagnent en intérêt dans des applications créatives, ainsi que pour relever certains des défis de la création de datasets. Toutefois, les modèles génératifs ont des défauts qui empêchent leur usage dans les applications susmentionnées. Plusieurs défis se posent lors de la création et de l’augmentation d’ensembles de données. Dans cette thèse, trois de ces défis sont considérés. Tout d’abord, la collecte d’échantillons et de leurs étiquettes peut s’avérer coûteuse, car leur catégorisation nécessite souvent une intervention humaine qui peut requérir les connaissances d’experts. Deuxièmement, il peut être particulièrement difficile de collecter des échantillons à partir de scénarios improbables ou nouveaux. Troisièmement, les ensembles de données présentent souvent des biais qui peuvent encourager un modèle à mal représenter la vraie distribution des données et à apprendre des corrélations nuisibles. Dans le cadre de cette thèse, les biais proviennent de catégories ou d’étiquettes sous- ou sur-représentées, ce qui produit des jeux de données à longue traîne et des ensembles de données avec peu ou pas d’échantillons associés à certaines étiquettes. Ces étiquettes catégorisent non seulement les objets individuels, les animaux, les plantes et les scènes complètes dans un ensemble de données, mais aussi leurs cooccurrences dans des scènes. Par conséquent, l’objectif de recherche de cette thèse est de proposer de nouvelles méthodes pour relever ces défis de création et d’augmentation d’ensemble de données. Dans cette thèse, deux approches sont considérées : la collecte de données réelles par un apprentissage actif et l’utilisation de modèles génératifs pour générer des données synthétiques. Les modèles génératifs ont leurs propres lacunes. Ils exposent leur compromis entre qualité des images générées et complexité des données modélisées, et ils font preuve d’une généralisation limitée. De plus, ils héritent et exacerbent les biais des données réelles. Finalement, une génération contrôlée requiert des étiquettes qui peuvent ne pas être disponibles ou coûteuses à obtenir. C’est pourquoi le deuxième objectif de recherche de cette thèse est de combler les lacunes susmentionnées des modèles génératifs. La première contribution propose une nouvelle politique d’apprentissage actif d’étiquetage, entraînée via un apprentissage par renforcement, qui sélectionne les échantillons à étiqueter et les ajoute à une base de données sémantique pour l’agrandir. D’une part, le coût de l’extension de l’ensemble de données est réduit, car moins d’échantillons étiquetés sont nécessaires pour atteindre une performance cible. D’autre part, les biais dans le jeu de données initial sont atténués, car davantage d’échantillons de catégories sous-représentées sont sélectionnés par la politique proposée. Les trois contributions suivantes se concentrent sur l’amélioration des modèles génératifs, en particulier les réseaux antagonistes génératifs (GANs), afin de relever les défis susmentionnés. La deuxième contribution présente une analyse et des améliorations aux modèles génératifs conditionnels de scènes complexes. Cette analyse révèle que les modèles de l’époque ne parvenaient pas à s’adapter aux données des catégories à longue traîne et généralisaient de manière médiocre lors de génération de nouvelles scènes. La troisième contribution présente un nouveau modèle génératif appelé Instance-Conditioned GAN (IC-GAN). IC-GAN modélise la distribution de jeux de données complexes via une approche non-paramétrique, en se conditionnant sur un point de données et en apprenant la distribution de son voisinage. Le modèle présente une remarquable généralisation aux distributions d’ensembles de données inconnus, améliore la qualité et la diversité des images générées contenant des classes sous-représentées et offre un contrôle sur la sémantique globale des images sans utiliser d’étiquettes. La quatrième contribution étend IC-GAN pour permettre un contrôle précis au niveau des objets, offrant une nouvelle façon de contrôler la génération de scènes complexes sans étiquettes sémantiques, et qui généralise à de nouvelles scènes. Enfin, dans la cinquième et dernière contribution, IC-GAN est utilisé comme un outil d’augmentation pour agrandir un ensemble d’entraînement de modèles de classification d’images. Il en résulte une augmentation des performances du modèles dans certaines configurations, ce qui valide l’utilisation du modèle génératif proposé précédemment pour bonifier les ensembles d’entraînement. Cette contribution est un pas vers l’amélioration de la classification d’images sans avoir à étiqueter de nouvelles données réelles supplémentaires.

Abstract

Creating or augmenting datasets is a crucial task for deep learning. Access to large-scale image datasets has been critical for the success of deep learning models for computer vision across a variety of tasks. However, acquiring large collections of data has its challenges. Therefore, there is a growing interest in generative models of images for creative applications as well to alleviate some of the challenges in dataset creation. Nevertheless, generative models present shortcomings that impede their usage in the aforementioned applications. Several challenges arise when creating or augmenting datasets. In this thesis, three of them are considered. First, collecting data samples and their labels can be costly, as categorizing samples often requires involved human intervention, sometimes needing expert knowledge. Second, it can be specially challenging to collect samples from unlikely or unseen scenarios. Third, datasets often exhibit data biases that can encourage a model to misrepresent the true data distribution and learn harmful correlations. In the scope of this thesis, data biases come from under-represented or over-represented classes or labels in the data, that result in long-tail class datasets and datasets with few or no samples for some of the labels. These labels can categorize individual objects, animals, plants and full scenes in a dataset, as well the co-occurrence of individual objects and scenes. Accordingly, the first research objective of this thesis is to propose novel methods that improve upon these challenges in dataset creation and augmentation. In this dissertation, two approaches are considered: collecting real data with active learning and the use of generative models to sample synthetic data. Generative models present their own shortcomings. They display a trade-off between image quality and modeled dataset complexity, and they exhibit limited generalization. Moreover, they inherit and exacerbate data biases from the real datasets. Finally, controllable generation requires labels that may be unavailable or costly to obtain. Thus, the second research objective of this thesis is to introduce new techniques to mitigate the aforementioned shortcomings of generative models. The first contribution proposes a novel active learning labeling policy, trained with reinforcement learning, that selects which samples to label and adds them to a semantic segmentation dataset to augment it. On one hand, the cost of extending a dataset is reduced, as less labeled samples are required to achieve a target performance. On the other hand, data biases in the initial dataset are mitigated, as more samples from under-represented categories are selected by the proposed policy. The next three contributions focus on improving generative models, Generative Adversarial Networks (GANs) in particular, by addressing their aforementioned shortcomings. Continuing with the second contribution, an analysis and improvements to conditional generative models for complex scenes are discussed. This analysis reveals models at the time were unsuccessfully modeling long-tail categories and were generalizing poorly when generating unseen scenes. The third contribution introduces a novel generative model named Instance Conditioned GAN (IC-GAN). IC-GAN models the distribution of complex datasets with a non-parametric approach, by conditioning on a datapoint and learning its neighborhood distribution. The model showcases remarkable generalization to unseen dataset distributions, it improves the quality and diversity of long-tail class generated images and it offers control over global image semantics without labels. The fourth contribution extends IC-GAN to enable precise control at the object level, providing a new way to control complex scene generation without semantic labels that generalizes to unseen scenes. Finally, in the fifth and last contribution, IC-GAN is used as a data augmentation tool to expand a training set for image classification models. This results in accuracy boosts for some setups, validating the usage of the previously proposed generative model to augment training sets. This contribution takes a step towards improving image classification without the need to label additional real data.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Christopher J. Pal et Adriana Romero Soriano
URL de PolyPublie:	https://publications.polymtl.ca/53342/
Université/École:	Polytechnique Montréal
Date du dépôt:	27 sept. 2023 14:21
Dernière modification:	11 avr. 2025 08:11

Citer en APA 7:	Casanova Paga, A. (2023). Active Learning, Controllable Generative Models and Dataset Augmentation [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/53342/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document