<  Back to the Polytechnique Montréal portal

A Study on Shape Clustering and Odor Prediction

Mina Mirshahi

PhD thesis (2017)

[img]
Preview
Download (7MB)
Cite this document: Mirshahi, M. (2017). A Study on Shape Clustering and Odor Prediction (PhD thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/2767/
Show abstract Hide abstract

Abstract

RÉSUMÉ : La thèse est divisée en deux parties principales. Dans la première partie, nous développons une nouvelle méthodologie et les outils computationnels nécessaires pour le regroupement ("clustering" en anglais) de formes. Dans la deuxième partie, nous abordons la problématique de prédiction des odeurs dans le secteur de la technologie du "nez électrique" ("e-nose" en anglais). Les chapitres 1 et 2 décrivent nos méthodologies proposées pour le regroupement de formes. Dans le chapitre 3, nous présentons une nouvelle approche pour la qualité des prédictions d’odeurs. Ensuite, nous exhibons un bref aperçu des deux problématiques, c’est-à-dire, le regroupement de formes et la prédiction d’odeurs, et nos solutions proposées. 1- Regroupement de formes: Les formes peuvent être interprétées comme des contours fermés dans un espace dimensionnel infini qui peut se transformer en différentes formes à travers le temps. Le principal objectif dans la modélisation de formes est de fournir un modèle mathématique qui représente chacune des formes. L’analyse statistique de formes est un outil très puissant dans l’étude des structures anatomiques des images médicales. Dans cette thése, qui est motivée principalement par les applications biologiques, nous suggérons une méthodologie pour la modélisation de surfaces des cellules. De plus, nous proposons une nouvelle technique de regroupement de formes de cellules. La méthodologie peut également être appliquée à d’autres objets géométriques. De nombreuses études ont été menées afin de suivre les possibles déformations des cellules à travers des descriptions qualitatives. Notre intérêt est plutôt de fournir une évaluation numérique précise des cellules. Dans le chapitre 1, des modèles statistiques utilisant différentes fonctions de base ("basis function" en anglais) sont ajustés afin de modéliser la surface des formes des cellules en 2 et 3 dimensions. Pour ce faire, la surface d'une cellule est d'abord convertie en un ensemble de données numériques. Par la suite, une courbe est ajustée à ces données. À ce stade, chaque cellule est représentée par une fonction continue. Maintenant, la question fondamentale est: comment distinguer différentes cellules en utilisant leurs formes fonctionnelles? Dans le chapitre 2, nous formulons un critère d'information bayésienne de regroupement ("clustering Bayesian information criterion" ou CLUSBIC en anglais) pour le regroupement hiérarchique de formes. Dans cette nouvelle approche, nous traitons les formes comme des courbes continues et nous calculons la fonction marginale postérieure associée à chaque courbe. Par conséquent, nous construisons le dendrogramme pour le regroupement hiérarchique en utilisant le CLUSBIC. Le dendrogramme est coupé lorsque la fonction marginale postérieure atteint son maximum. Nous montrons au chapitre 2 que le CLUSBIC est une extension naturelle de la méthode de Ward, une mesure de regroupement bien connue. Comme le critère d'information bayésien (BIC) dans le cadre d'une régression, nous démontrons la cohérence du CLUSBIC dans le cadre du regroupement de données. Le CLUSBIC est une extension du BIC, qui coïncide avec le BIC si les données se regroupent dans un amas unique. L'utilité de notre méthodologie proposée dans la modélisation et le regroupement des formes est étudiée sur des données simulées ainsi que sur des données réelles. 2- Prédiction d'odeurs: Un "e-nose", ou olfaction artificielle, est un dispositif qui analyse l'air afin d'identifier les odeurs en utilisant un ensemble de capteurs de gaz. Le "e-nose" produit des données multidimensionnelles pour chaque mesure qu'il saisit du milieu environnant. Un petit sous-échantillon de ces mesures est envoyé à l'olfactométrie où les activités d'odeurs sont analysées. Dans l'olfactométrie, par exemple, on attribue à chaque mesure du "e-nose" une valeur de concentration d'odeurs qui décrit l'identification des odeurs par les humains. Le processus de transfert des mesures à l'olfactométrie et l'analyse de leur concentration d'odeurs sont longs et coûteux. Ainsi, des méthodes de reconnaissance de formes ont été appliquées aux données du nez électronique pour la prévision automatique de la concentration d'odeurs. Il est essentiel d'évaluer la validité des mesures en raison de la sensibilité du "e-nose" aux changements environnementaux et physiques. Les mesures imprécises conduisent à des résultats de reconnaissance de formes peu fiables. Par conséquent, la vérification des échantillons de données provenant du nez électronique et la prise de mesures nécessaires en présence d'anomalies sont essentielles. Nous créons une variante améliorée du "e-nose" existant qui est capable d'évaluer automatiquement et en ligne la validité des échantillons et de prédire l'odeur en utilisant des méthodes appropriées de reconnaissance de formes.----------ABSTRACT : This thesis is divided into two main parts. In the first part, we develop a new methodology and the necessary computational tools for shape clustering. In the second part, we tackle the challenging problem of odor prediction in electronic nose (e-nose) technology. Chapter 1 and Chapter 2 describe our proposed methodology for shape clustering. In Chapter 3, we present a new approach for quality odor prediction. Following is a brief overview of the two problems, i.e. shape clustering and odor prediction, and our proposed solutions. 1- Shape Clustering: Shapes can be interpreted as closed contours in an infinite dimensional space which can morph into different shapes over time. The main goal in shape modeling is to provide a mathematical model to represent each shape. Statistical shape analysis is a powerful tool in studying the anatomical structures in medical images. In this thesis, motivated by biological applications, we suggest a methodology for surface modeling of cells. Furthermore, we propose a novel technique for clustering cell shapes. The methodology can be applied to other geometrical objects as well. Many studies have been conducted to track possible deformations of cells using qualitative descriptions. Our interest is rather providing an accurate numerical assessment of cells. In Chapter 1, statistical models using different basis functions are adapted for modeling the surface of cell shapes both in 2D and 3D spaces. To this end, the surface of a cell is first converted to a set of numerical data. Afterwards, a curve is fitted to these data. At this stage, each cell is represented by a continuous function. The fundamental question, now, is how to distinguish between different cells using their functional forms. In Chapter 2, we formulate a clustering Bayesian information criterion (CLUSBIC) for hierarchical clustering of shapes. In this new approach, we treat shapes as continuous curves and we compute the marginal probability associated with each curve. Accordingly, we build the dendrogram for hierarchical clustering employing CLUSBIC. The dendrogram is cut when the marginal probability reaches its maximum. We show that CLUSBIC is a natural extension of Ward's linkage, a well-known clustering measure, in Chapter 2. Similar to Bayesian information criterion (BIC) in regression setting, we demonstrate the consistency of CLUSBIC in clustering. CLUSBIC is an extension of BIC, which coincides with BIC if data fall into a single cluster. The usefulness of our proposed methodology in modeling and clustering shapes is examined on simulated and real data. 2- Odor Prediction: An e-nose, or artificial olfaction, is a device that analyzes the air to identify odors using an array of gas sensors. The e-nose produces multi-dimensional data for each measurement that it takes from the surrounding environment. A small sub-sample of these measurements are sent to the olfactometry where they are analyzed for odor activities. In olfactometry, for instance, each e-nose measurement is assigned an odor concentration value which describes the odor identifiability by humans. The process of transferring the measurements to the olfactometry and analyzing their odor concentration is time consuming and costly. For this purpose, pattern recognition methods have been applied to e-nose data for automatic prediction of the odor concentration. It is essential to assess the validity of the measurements due to the sensitivity of the e-nose to environmental and physical changes. The imprecise measurements lead to unreliable pattern recognition outcomes. Therefore, continuous monitoring of e-nose samples and taking necessary actions in the presence of anomalies is vital. We devise an improved variant of the existing e-nose which is capable of assessing the validity of samples automatically in an online manner, and predicting odor using suitable pattern recognition methods.

Open Access document in PolyPublie
Department: Département de mathématiques et de génie industriel
Dissertation/thesis director: Andrea Lodi, Vahid Partovi Nia and Masoud Asgharian
Date Deposited: 16 Nov 2017 15:37
Last Modified: 27 Jun 2019 16:47
PolyPublie URL: https://publications.polymtl.ca/2767/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only