Modifications de l'algorithme SELECT() appliquées à une problématique du cancer du sein

Louis-Marc Mercier

Mémoire de maîtrise (2017)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

Les puces à ADN sont fréquemment utilisées pour diagnostiquer diverses maladies, dont lecancer. L'analyse des données récoltées par ces appareils mène à l'obtention d'une quantité impressionnante d'information sur les gènes de chaque patient. Cela conduit alors à la malédiction de la dimensionnalité. En des termes simples, on dispose de trop peu d'observations pour le nombre de variables explicatives. Les méthodes d'apprentissage automatique se voient alors limitées. Étant donné le nombre élevé de gènes, une hypothèse plausible est que certains gènes contiennent moins d'informations ou de l'information redondante. L'idée de l'algorithme SELECT() est de sélectionner les gènes les plus informatifs à l'aide de l'analyse en composantes principales et de la régression logistique. La sélection des variables est une étape cruciale dans le développement d'un modèle de prédiction. Par conséquent, il est intéressant d'étudier des versions modifiées de cet algorithme de sélection de variables. L'objet de ce travail est donc d'étudier deux variations de SELECT() sur un ensemble de données de patients en rétablissement d'un cancer du sein (Gravier, 2010). Le chapitre 3 traite des notions nécessaires pour avoir une compréhension profonde de SELECT() et ses modifications. Le chapitre 4 vise à reconstituer le plus fidèlement possible l'algorithme SELECT() à la version de Ocampo-Vega (2016). Puis, des classificateurs sont développés, chacun selon une méthodologie qui lui est propre. C'est dans le chapitre 5 que l'originalité de cette recherche est décomposée en deux parties. Pour la première partie du chapitre 5, l'analyse en composantes principales est remplacée par une analyse en composantes principales creuse. Cette substitution nécessite une estimation du vecteur de pénalités � qui est effectuée en tenant compte de contraintes. La seconde partie du chapitre 5 propose une substitution de la régression logistique bayésienne par l'algorithme Boruta. Pour chacune de ces parties, des classificateurs sont entraînés de la même façon qu'au chapitre 4. Les performances des classificateurs sont finalement analysées afin de montrer l'amélioration de performance engendrée (pour les critères d'AUC et de précision) par nos algorithmes modifiés. Sur notre ensemble de données, nos résultats ne battent pas les résultats obtenus dans la littérature et les modifications de SELECT() ne semblent pas mener à une amélioration des performances. Ces modifications ont également été appliquées sur d'autres jeux de données (Tian, 2003 ; Singh, 2002) et aucune amélioration n'a été constatée. Les désavantages et des améliorations potentielles sont par la suite traités. Finalement, une synthèse du mémoire est effectuée et des avenues de recherche sont proposées.

Abstract

DNA microarrays are a commonly used technology to diagnose various diseases including cancer. The analysis of the collected data from these devices gives an impressive amount of information for each patient. This leads to the curse of dimensionality, there are not enough observations for the number of explanatory variables. This causes limitations in the use of machine learning methods. A plausible assumption is that given the high number of explanatory variables, some of them contain less information or redundant information. Thus, variable selection should be used. The idea of the SELECT() algorithm is to select the most informative genes by using principal components analysis and logistic regression. The selection of variables is a crucial step in the development of a prediction model. Therefore, studying modifications of this algorithm could lead to interesting discoveries. The aim of this work is to study two modified versions of SELECT() on a set of data from patients recovering from breast cancer (Gravier, 2010). Chapter 3 deals with important concepts that are necessary to have a deep understanding of SELECT() and its modifications. Chapter 4 aims at reconstructing the SELECT() algorithm as closely as possible to the version created by Ocampo-Vega (2016). Then, classifiers are developed, each according to a methodology of its own. It is in Chapter 5 that the originality of this research is broken down into two parts. The first part of Chapter 5 focuses on the first modification of the algorithm. In order to modify the set of selected variables, the principal component analysis is replaced by a sparse principal component analysis. This substitution requires an estimate of the penalty vector � which is performed taking into account constraints. The second part of Chapter 5 is about a substitution of the bayesian logistic regression by the Boruta algorithm. For each of these parts, classifiers are trained in the same way as in Chapter 4. The performance of classifiers is finally analyzed in order to show the improvement of performance generated (for AUC and precision criteria) by our modified algorithms. On our data set, the results are not better than the ones from the literature and the modifications of SELECT() do not seem to lead to an improvement of the performances. These changes have also been applied to other datasets (Tian, 2003; Singh, 2002) and no improvement has been observed. Disadvantages and potential improvements are subsequently discussed. The most instructive potential improvement is to combine the two modifications to obtain a new algorithm. Finally, a synthesis of the dissertation is carried out and avenues of research are proposed.

Département:	Département de mathématiques et de génie industriel
Programme:	Maîtrise recherche en mathématiques appliquées
Directeurs ou directrices:	Richard Labib et François Soumis
URL de PolyPublie:	https://publications.polymtl.ca/2862/
Université/École:	École Polytechnique de Montréal
Date du dépôt:	23 févr. 2018 12:03
Dernière modification:	28 sept. 2024 02:46

Citer en APA 7:	Mercier, L.-M. (2017). Modifications de l'algorithme SELECT() appliquées à une problématique du cancer du sein [Mémoire de maîtrise, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/2862/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document