Vers plus de robustesse en reconnaissance d'objets et de visages pour l'analyse d'images issues de vidéos de concert

Fannie Puech

Mémoire de maîtrise (2012)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

Les vidéos de concert constituent un exemple typique de documents très populaires qui sont mal indexés par une description textuelle. Une meilleure indexation passe par l'étude du contenu visuel de ces vidéos. Or, les algorithmes à la pointe en analyse d'images sont encore trop peu robustes au contenu hostile des vidéos de concert. C'est pourquoi, nous nous efforçons ici d'identifier les aspects critiques qui limitent l'efficacité des algorithmes classiques de reconnaissance d'objets et d'individus sur les images complexes. Nous proposons alors, le cas échéant, des pistes de solutions pour rendre ces techniques plus robustes au contenu des vidéos de concert. Détection d'instruments. Au chapitre un, nous mettons en lumière les facteurs limitant en pratique les performances des méthodes classiques de reconnaissance d'objets appliquées aux vidéos de concert. Pour ce faire, nous révisons l'ensemble du pipeline de détection d'objets à la lumière des contraintes imposées par le contexte de l'analyse vidéo. Nous identifions et décrivons notamment les écueils suivants: la complexité algorithmique des méthodes, la mauvaise gestion de la multinomialité des contenus, et la fragilité des algorithmes face aux images à contenu riche (scènes complexes). Complexité algorithmique des méthodes. Le goulot d'étranglement du pipeline d'apprentissage en reconnaissance d'objets réside sans conteste dans le calcul du vocabulaire visuel utilisé pour représenter les images sous la forme d'un histogramme de mots visuels. En effet, l'heuristique des k-moyennes est appliqué à l'ensemble des descripteurs locaux extraits des images d'entrainement, soit un ensemble de très grand cardinal et de grande dimension. Le processus est lourd, et de plus, susceptible de converger vers des minimums locaux. Nous proposons ici une méthode de descente avec relance dynamique, qui permet d'éviter un certain nombre de configurations problématiques sans avoir à réinitialiser complètement l'algorithme. Notre méthode constitue une bonne alternative aux algorithmes de recherche locale ou de relance qui ont étés proposés pour pallier aux manquements de l'algorithme des k-moyennes. Aussi, proposons-nous une analyse théorique de la complexité de cet algorithme. Nous montrons alors que le nombre de centres, k, utilisés pour le clustering, impacte fortement l'efficacité du processus. Nous posons donc la question de la taille adéquate, k, du vocabulaire visuel utilisé pour l'encodage des images. Sous un angle plus pratique, nous introduisons une heuristique efficace pour le clustering rapide d'un espace de grande dimension peuplé de vecteurs denses, c'est-à-dire adapté à l'estimation du vocabulaire visuel sur des banques de données d'images de grande taille. L'algorithme introduit présente des performances compétitives avec l'état de l'art en termes de clustering rapide. Scènes complexes. L'apprentissage sur des bases de données représentatives de la variabilité des images contenues dans les vidéos de concert est un incontournable pour l'obtention d'un classificateur robuste sur un tel contenu. Ainsi, de manière pratique, est-il nécessaire de disposer, dans la base de données d'apprentissage, d'exemples d'instruments présentés dans les mêmes conditions que dans une vidéo de concert (occlusion par le musicien, variation de couleur et de forme). Une telle variabilité peut être obtenue par collecte automatisée d'images sur le web. Malheureusement, ces images ne sont pas optimisées pour l'apprentissage. Elles consistent en des scènes complexes, incluant l'objet d'intérêt. Or, l'apprentissage sur des images présentant plusieurs objets dans un environnement complexe n'est pas une tâche triviale. Comme nous le montrons au chapitre 3.2, la présence d'arrière-plan nuit aux performances des algorithmes. Le recours à une boîte englobante pour isoler l'objet sur les images d'entraînement permet de résoudre ce problème, mais suppose une intervention humaine coûteuse. Nous proposons donc une méthode permettant d'estimer automatiquement la position d'un objet donné sur des images d'entraînement. Multiplicité des classes et multinomialité. Enfin, la conception d'un algorithme adapté à la détection de plusieurs classes d'objets, éventuellement multinomiales, souffre d'un manque d'automatisation. Usuellement, une machine à vecteurs de support linéaire est apprise pour chaque classe d'objets. Nous montrons au chapitre 3.3 que cette pratique courante présente plusieurs limitations. Nous proposons donc une méthode à l'intersection entre le SVM multiclasse et les arbres de décision permettant de gérer un nombre important de classes éventuellement multinomiales. Nous montrons que, à encodage égal, cette méthode permet d'améliorer le F1-score de 10% par rapport à une méthode d'apprentissage standard par SVMs. Reconnaissance de visages. Dans le second chapitre de ce mémoire, nous évaluons l'état de l'art des techniques de reconnaissance d'individus et leur applicabilité aux vidéos de concert. Nous présentons en particulier la méthode d'apprentissage de métrique pour la comparaison dans l'espace des similarités en cosinus et proposons une amélioration. Nous soulignons ensuite l'impact négatif des grandes variations de la pose des individus et du faible nombre d'images disponibles par personne pour l'apprentissage. Enfin, nous explorons les techniques de classification à grande échelle et les structures de données adaptées. La représentation des visages est différente de la représentation des objets, du fait de leur forme constante. Nous présentons alors les méthodes classiques d'apprentissage et introduisons une méthode de classification basée sur les techniques à la pointe en vérification, en l'occurrence l'apprentissage de métrique pour la similarité en cosinus - CSML. Nous montrons alors que cette technique peut être améliorée par une projection linéaire supplémentaire (LDE) de type Fisher-non paramétrique. L'accroissement de précision observé est de l'ordre de 8%. La prise en compte de la pose en vérification (comparaison deux à deux de visages) permet d'améliorer considérablement les performances des algorithmes. L'idée consiste à apprendre une métrique adaptée pour la comparaison respective des paires de visages de face, de profil, et les paires face-profil. Nous montrons que ce résultat se vérifie aussi en classification. Par ailleurs, le nombre d'images disponibles pour l'apprentissage par individu impacte aussi fortement les performances des algorithmes de reconnaissance. Sur la base de données Labelled Faces in the Wild, nous mesurons l'impact du nombre d'instances disponibles pour l'apprentissage sur les performances d'un algorithme de classification. Enfin, nous examinons le scénario de la classification rapide de visages à grande échelle. Nous prouvons la légitimité de la métrique Euclidienne après projection dans un espace optimisé pour la similarité en cosinus. Nous étudions alors les performances des structures de données hiérarchiques pour la classification rapide sur ces bases de données et montrons que la réduction de dimensionnalité est un incontournable pour l'utilisation efficace de ces structures. Indexation de vidéos de concert. Enfin, nous proposons une stratégie pratique pour l'indexation des vidéos de concert. La méthode proposée est basée sur une description détaillée du contenu visuel et sur une méthode innovatrice d'indexation des évènements musicaux. L'analyse de vidéos en général est un thème complexe. Ici, la restriction aux vidéos de concert simplifie l'étude puisque l'on sait à quel type de contenu s'attendre. Nous proposons donc de procéder à la mesure de plusieurs indicateurs pour évaluer la qualité d'une vidéo : présence d'instruments et d'individus d'intérêt, qualité de la prise de vue, et popularité du groupe et de l'évènement. Le recueil de valeurs de ces paramètres consiste à mettre en œuvre les méthodes développées pour la détection d'instruments et de visages. Il s'agit aussi de proposer un moyen fiable permettant d'estimer la qualité de la prise de vue. Nous introduisons donc une méthode basée sur la mesure du flot optique moyen pour estimer les mouvements de caméra. Enfin, nous décrivons une méthodologie simple pour mesurer la popularité d'un groupe ou d'un évènement musical. Pour finir, fort de ces mesures, nous étudions le problème de l'indexation de vidéos de concert, et proposons une méthode pour la détection de vidéos inappropriées, à savoir, les vidéos ne représentant pas un concert, les vidéos mal filmées, ou encore les vidéos ne présentant pas le groupe de musiciens d'intérêt.

Abstract

While concerts are a popular subject for the videos found online, they are often poorly indexed relative to other types of media. This thesis aims at introducing a strategy to improve concert video indexing using computer vision techniques from the image recognition field. More specifically, we aim at exploring several key aspects of several state of the art techniques that limit their ability to be properly applied to online concert videos. Instrument detection. In the first chapter, we discuss several factors that bound the performances of traditional object recognition techniques when applied to concert videos. To do so, we go through a commonly used the state of the art object detection pipeline and we identify aspects that are critical for concert video content analysis. More specifically, we identify the following pitfalls: algorithms complexity, poor modeling of content variability, and sensitivity to background on complex scenes. Algorithm complexity. One bottleneck of the learning pipeline in object recognition is the visual vocabulary computation step. Typically, the k-means algorithm is applied to the space of local descriptors extracted from training images, which is a large space populated with dense high dimensional vectors. Hence, we study the complexity of this algorithm and show that a key parameter is the number of centers, k, used for clustering, which also defines the size of the visual vocabulary. We therefore also explore the appropriate size of a visual vocabulary for image recognition algorithms. More specifically, we introduce a reasonable criterion to choose the value of k, given a set of local descriptors. From a more practical point of view, we implemented a heuristic to improve k-means and prevent local minima to be reached too quickly. This algorithm appears to be competitive with state of the art methods for fast k-means computation. Background clutter. To obtain a robust classifier for images from concert videos, one cannot rely on a small dataset showing objects under an ideal point of view, on centered images without background. To cope with the large variation of shape and point of view of instruments in concert videos, there is no choice but to learn using a representative dataset. Such a dataset can be obtained by mining the web, as it has been done for the well-known image-net database. Still, if representative of the variety of instruments within classes, images from image-net are not provided with bounding boxes. To label images with the location of the object of interest is a costly operation that we cannot consider at large scale. Thus, we introduce an algorithm to estimate an object location within an image by cross-comparing images from the training-set. Creating efficient, high performance multiclass classifiers. To conceive a detection algorithm dealing with several object classes, a standard practice consists of training one SVM per object. We show that this strategy can be improved in several ways, in particular by taking into account class multinomiality and by dealing with several classes at the same time. Specifically, we show that the F-1 score can be improved by more than 10% in comparison to standard one-vs-all SVMs. Face recognition. In the second chapter, we review face recognition techniques. We focus on Cosine Similarity Learning (CSML) and measure its efficiency when applied to the face recognition problem on faces in the wild from the Labelled Faces in the Wild dataset. We show that CSML can be further improved by Linear Discriminant Embedding. Then, we underline the negative impact of pose variations and of the low number of training images per people. At last, we review large scale classification techniques and appropriate data structures. Face representations differ from object because recognition involves exploring details of the face, not an average shape. We introduce standard methods for face comparison and measure the precision one can get by applying these to the classification problem. Specifically, we experiment with the nearest neighbor classification algorithm on faces projected in the CSML space, which is optimized to separate the different faces under cosine similarity. We show that a further projection can improve the classification accuracy by more than 8%. To explicitly take into account pose on pictures has proven to be a fruitful practise for pairs of faces comparison. The idea consists in learning a specific metric for each pair of pose (frontal-frontal, frontal-side, side-side). Here we show that this observation is also true for the face classification problem. The number of training images per people is another factor that has a major impact on the precision of classification algorithms. On the LFW dataset, we measure the relation between the number of training images and the achieved accuracy. We then discuss the image gathering process and its impact on learning strategies. At last, we discuss the large scale face recognition scenario and we prove that the Euclidian metric can be used for nearest neighbor search after CSML on normalized vectors. Concert video indexing. Finally, we introduce a methodology for concert videos indexing, based on a detailed description of a video visual content and an innovative event indexing strategy. Video analysis is a wide field of study. Here we focus on concert videos which simplifies the process and allows us to provide a more detailed study. Indeed we know what kind of content one might expect from a good concert video. We thus proceed to measure the following parameters: objects and people of interest, camerawork quality, band popularity and event size. Features extraction. To gather these features for several videos can be done by using previously developed methods for instruments and person recognition. We then develop an algorithm to measure the quality of camerawork. We thus introduce a technique based on optical-flow and show that a relationship can be drawn between averaged optical flow per frame and camera movement quality. We also introduce basic methods to evaluate the popularity of a band and the popularity of a musical event. We conclude by a model that can detect low-quality videos using the previously mentioned parameters.

Département:	Département de génie informatique et génie logiciel
Programme:	Génie informatique
Directeurs ou directrices:	Christopher J. Pal
URL de PolyPublie:	https://publications.polymtl.ca/1046/
Université/École:	École Polytechnique de Montréal
Date du dépôt:	26 mars 2013 15:48
Dernière modification:	06 avr. 2024 08:24

Citer en APA 7:	Puech, F. (2012). Vers plus de robustesse en reconnaissance d'objets et de visages pour l'analyse d'images issues de vidéos de concert [Mémoire de maîtrise, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/1046/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document