<  Back to the Polytechnique Montréal portal

Modifications de l'algorithme SELECT() appliquées à une problématique du cancer du sein

Louis-Marc Mercier

Master's thesis (2017)

Open Access document in PolyPublie
[img]
Preview
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (1MB)
Show abstract
Hide abstract

Abstract

DNA microarrays are a commonly used technology to diagnose various diseases includingcancer. The analysis of the collected data from these devices gives an impressive amount of information for each patient. This leads to the curse of dimensionality, there are not enough observations for the number of explanatory variables. This causes limitations in the use of machine learning methods. A plausible assumption is that given the high number of explanatory variables, some of them contain less information or redundant information. Thus, variable selection should be used. The idea of the SELECT() algorithm is to select the most informative genes by using principal components analysis and logistic regression. Theselection of variables is a crucial step in the development of a prediction model. Therefore, studying modifications of this algorithm could lead to interesting discoveries. The aim of this work is to study two modified versions ofSELECT() on a set of data from patients recovering from breast cancer (Gravier, 2010). Chapter 3 deals with important concepts that are necessary to have a deep understanding of SELECT() and its modifications. Chapter 4 aims at reconstructing the SELECT() algorithm as closely as possible to the version created by Ocampo-Vega (2016). Then, classifiers are developed, each according to amethodology of its own. It is in Chapter 5 that the originality of this research is broken down into two parts. The first part of Chapter 5 focuses on the first modification of the algorithm. In order to modify the set of selected variables, the principal component analysisis replaced by a sparse principal component analysis. This substitution requires an estimate of the penalty vector � which is performed taking into account constraints. The second part of Chapter 5 is about a substitution of the bayesian logistic regression by the Boruta algorithm. For each of these parts, classifiers are trained in the same way as in Chapter 4. The performance of classifiers is finally analyzed in order to show the improvement of performance generated (for AUC and precision criteria) by our modified algorithms. On our data set, the results are not better than the ones from the literature and the modifications of SELECT() do not seem to lead to an improvement of the performances. These changes have also been applied to other datasets (Tian, 2003; Singh, 2002) and no improvement has been observed. Disadvantages and potential improvements are subsequently discussed. Themost instructive potential improvement is to combine the two modifications to obtain a new algorithm. Finally, a synthesis of the dissertation is carried out and avenues of research are proposed.

Résumé

Les puces à ADN sont fréquemment utilisées pour diagnostiquer diverses maladies, dont lecancer. L'analyse des données récoltées par ces appareils mène à l'obtention d'une quantité impressionnante d'information sur les gènes de chaque patient. Cela conduit alors à la malédiction de la dimensionnalité. En des termes simples, on dispose de trop peu d'observations pour le nombre de variables explicatives. Les méthodes d'apprentissage automatique sevoient alors limitées. Étant donné le nombre élevé de gènes, une hypothèse plausible est que certains gènes contiennent moins d'informations ou de l'information redondante. L'idée de l'algorithme SELECT() est de sélectionner les gènes les plus informatifs à l'aide de l'analyse en composantes principales et de la régression logistique. La sélection des variables est une étapecruciale dans le développement d'un modèle de prédiction. Par conséquent, il est intéressant d'étudier des versions modifiées de cet algorithme de sélection de variables.L'objet de ce travail est donc d'étudier deux variations de SELECT() sur un ensemble de données de patients en rétablissement d'un cancer du sein (Gravier, 2010). Le chapitre 3 traite des notions nécessaires pour avoir une compréhension profonde de SELECT() et ses modifications.Le chapitre 4 vise à reconstituer le plus fidèlement possible l'algorithme SELECT() à la version de Ocampo-Vega (2016). Puis, des classificateurs sont développés, chacun selon une méthodologie qui lui est propre. C'est dans le chapitre 5 que l'originalité de cette recherche est décomposée en deux parties. Pour la première partie du chapitre 5, l'analyse en composantes principales est remplacée par une analyse en composantes principales creuse.Cette substitution nécessite une estimation du vecteur de pénalités � qui est effectuée en tenant compte de contraintes. La seconde partie du chapitre 5 propose une substitution de la régression logistique bayésienne par l'algorithme Boruta. Pour chacune de ces parties, desclassificateurs sont entraînés de la même façon qu'au chapitre 4. Les performances des classificateurs sont finalement analysées afin de montrer l'amélioration de performance engendrée (pour les critères d'AUC et de précision) par nos algorithmes modifiés. Sur notre ensemble de données, nos résultats ne battent pas les résultats obtenus dans la littérature et les modifications de SELECT() ne semblent pas mener à une amélioration desperformances. Ces modifications ont également été appliquées sur d'autres jeux de données (Tian, 2003 ; Singh, 2002) et aucune amélioration n'a été constatée. Les désavantages et des améliorations potentielles sont par la suite traités. Finalement, une synthèse du mémoire esteffectuée et des avenues de recherche sont proposées.
Department: Department of Mathematics and Industrial Engineering
Program: Maîtrise recherche en mathématiques appliquées
Academic/Research Directors: Richard Labib, François Soumis
PolyPublie URL: https://publications.polymtl.ca/2862/
Institution: École Polytechnique de Montréal
Date Deposited: 23 Feb 2018 12:03
Last Modified: 10 Nov 2022 02:47
Cite in APA 7: Mercier, L.-M. (2017). Modifications de l'algorithme SELECT() appliquées à une problématique du cancer du sein [Master's thesis, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/2862/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item