<  Back to the Polytechnique Montréal portal

Weakly-Supervised Learning from Incomplete Data

Damoon Robatian

Ph.D. thesis (2021)

Open Access document in PolyPublie
Open Access to the full text of this document
Terms of Use: All rights reserved
Download (1MB)
Show abstract
Hide abstract


The parametric paradigm of statistical inference was mostly systematized in the early twentieth century. Although for several decades this classical approach to inference continued to preserve its dominance as the main accepted ground for inference, the previous century has witnessed the arrival of other propitious approaches to statistical inference too. The non-parametric techniques, exploratory data analysis, and statistical learning theory are all examples of these alternative paradigms. Adopting these new methodologies, in addition to the benefits the classical machinery offers, has enriched sciences, where analysis of empirical data is of concern. However, embracing the new methodologies has occurred at its own pace in different areas. Particularly, in domains, where commonly encountered data exhibit some atypical properties, this transition has often been delayed. The current thesis studies and establishes some essential steps towards realizing the application of the inferential paradigm of statistical learning or Vapnik-Chervonenkis (VC) theory to the analysis of incomplete data; specifically, the data that are biased and censored, are at the core of our interest. This setting of learning will be called weakly-supervised, throughout this work. In addition, we investigate the learning capabilities of the so-called mapping neural networks, according to the standards provided by statistical learning theory. Statistical learning theory, by now, is one of the maturest branches of modern data science and hosts a rich supply of mathematically approved techniques for solving data problems. Like its classical counterpart, the techniques provided by statistical learning theory can empower data analysis methodologies, in general, and analysis of incomplete data, which is our interest, in particular. The certain type of data considered, here, is frequently encountered in time-to-event or survival analysis, where the classical parametric approach to statistical inference is still the mainstream. This suggests that incomplete-data analysis might, significantly, benefit from the potential of the new methods offered by statistical learning. Although some non-classical frameworks have already made their way into the analysis of survival data, related foundational studies are still passing rudimentary stages. The majority of the existing studies deal with the practical performance of certain algorithms, such as ensemble methods, to concrete survival datasets. This leaves a number of fundamental questions, targeting the global applicability of the learning methods to the analysis of incomplete data, unanswered. An example of such questions is the necessary and sufficient conditions for the reliability of a machine for learning from biased and censored data. Filling such gaps was the primary motivation that triggered the present research. Specifically, the particular setting of the simultaneous sampling bias and censoring seems to be, completely, lacking in the statistical learning literature. For at least two reasons, it is important to investigate the integration of the statistical learning methods into the analysis of incomplete data: (i) Statistical learning theory provides extended inferential flexibility, which leads to covering a wider range of situations in real–world problems; and (ii) it might employ the computational capability of modern computers to solve complex or computationally heavy problems of data analysis. In addition, as of now, some learning techniques have already proved to be very promising in practice. The increased power offered by these methods is what justifies the relevance of the present research. Here, we study the following topics, in the context of biased, and censored data: (i) learning the distribution function, (ii) risk minimization problem and its consistency, (iii) learning the regression function, (iv) regression variable selection based on maximum likelihood estimation, (v) application of the mapping neural networks to solve the learning problem, and (vi) some important, open problems as well as a few challenges to be considered in future studies. The first three problems are amongst the most fundamental problems of statistical learning theory and are settled here, successfully, for biased and censored data. In particular, we derive the appropriate empirical probability measures, defined in terms of biased and censored data, that can consistently estimate the underlying actual probability measures. It is illustrated how the results can be further applied to minimize the risk functional. Also, a kernel regression method for a proper estimation of the regression function, in the presence of bias and censoring, is proposed. In addition, the consequences of some naïve approaches to the problem are indicated. In connection with the fourth problem, we consider two likelihood-based variable selection methods, referred to as the conditional and joint approaches. The first one is, in fact, based on the conventional approach to regression analysis, i.e., conditioning the likelihood of the response on the covariates. It is called conventional because it is based on the definition of the regression function and is the method, normally, used in regression problems. In contrast, we propose a second approach that employs the joint likelihood of the covariates and the response for selecting variables. This approach was originally created for parameter estimation but we extend its application to the problem of variable selection. We speculate that the latter approach might be superior to the former one in terms of selecting the correct subset of influential features. Some mathematical properties of both methods, which are believed to be responsible for this superiority, are derived and discussed. Finally, a brief simulation study draws a comparison between the two approaches, whose outcome supports the hypothesis of the supremacy of the unconditional approach over the other one. However, providing a complete mathematical proof, in favour of or against this hypothesis, requires further investigation. Next, we provide a comprehensive investigation of the so-called mapping neural networks and their capability of solving the main problem of statistical learning. We trace back the mathematical roots justifying the estimation abilities of the networks to more than a century ago. Various related mathematical problems, such as the algebraic solvability problem and the Kolmogorov-Arnold representation theorem, are introduced and their relation with the mapping neural networks are scrutinized. We show how the distinction between the approximation and representation explains the capacity of these networks in function estimation. To conclude, we discuss the relevance of the neural networks inside the framework of statistical learning theory. Specifically, we discuss why neural networks are not able to, completely, solve the learning problem, according to the statistical learning principles of reliable learning. Finally, a few open challenges, including the classification problem, detection of the dependency direction, and learning the intrinsic dimension of data, in the context of biased and censored data, are introduced and, swiftly, discussed. As mentioned earlier, some of the problems solved here, such as estimation of the distribution function and the risk minimization problem, are of crucial importance in statistical learning theory. The reason, as explained in Chapter 3, is that solving the main generic forms of the supervised learning problems, i.e., density estimation, regression, and classification or pattern recognition, boil down to solving the risk minimization and the distribution estimation problems.


Le paradigme paramétrique de l'inférence statistique a été principalement restructuré au début du XXe siècle. Bien que, pendant plusieurs décennies, cette approche classique de l'inférence ait continué à conserver sa prédominance en tant que principal motif d'inférence accepté, le siècle précédent a également vu l'arrivée d'autres approches favorables à l'inférence statistique. Les techniques non paramétriques, l'analyse exploratoire des données et la théorie de l'apprentissage statistique sont des exemples de ces paradigmes alternatifs. L'adoption de ces nouvelles méthodologies, en plus des avantages offerts par les machines classiques, a enrichi les sciences, où l'analyse des données empiriques est préoccupante. Cependant, l'adoption des nouvelles méthodologies s'est faite à son propre rythme dans différents domaines. En particulier, dans les domaines où les données communément rencontrées présentent des propriétés atypiques, cette transition a souvent été retardée. La thèse présentée ici étudie et établit certaines étapes essentielles vers la réalisation de l'application du paradigme inférentiel de l'apprentissage statistique ou de la théorie Vapnik-Chervonenkis (VC) à l'analyse de données incomplètes; plus précisément, les données biaisées et censurées sont au coeur de notre intérêt. Ce cadre d'apprentissage sera appelé faiblement supervisé, tout au long de ce travail. En outre, nous étudions les capacités d'apprentissage des réseaux de neurones dits de cartographie, selon les normes fournies par la théorie de l'apprentissage statistique. La théorie de l'apprentissage statistique, à l'heure actuelle, est l'une des branches les plus matures de la science des données moderne et héberge une riche offre de techniques mathématiquement approuvées pour résoudre les problèmes de données. Comme son homologue classique, les techniques fournies par la théorie de l'apprentissage statistique peuvent alimenter les méthodologies d'analyse de données, en général, et l'analyse de données incomplètes, ce qui est notre intérêt, en particulier. Le certain type de données considéré, ici, est fréquemment rencontré dans l'analyse du temps jusqu'à l'événement ou de la survie, où l'approche paramétrique classique de l'inférence statistique est toujours courante. Cela suggère que l'- analyse des données incomplètes pourrait, de manière significative, bénéficier du potentiel des nouvelles méthodes offertes par l'apprentissage statistique. Bien que certains cadres non classiques aient déjà fait leur chemin dans l'analyse des données de survie, les études fondamentales connexes franchissent encore des étapes rudimentaires. La majorité des études existantes portent sur les performances pratiques de certains algorithmes, tels que les méthodes d'ensemble, sur des ensembles de données de survie concrets. Cela laisse un certain nombre de questions fondamentales, visant l'applicabilité globale des méthodes d'apprentissage à l'analyse de données incomplètes, sans réponse. Un exemple de telles questions est les conditions nécessaires et suffisantes pour la fiabilité d'une machine pour apprendre à partir de données biaisées et censurées. Combler ces lacunes était la principale motivation derrière la thèse présentée ici. Plus précisément, le paramétrage particulier du biais d'échantillonnage simultané et de la censure semble totalement absent de la littérature sur l'apprentissage statistique. Pour au moins deux raisons, il est important d'étudier l'intégration des méthodes d'apprentissage statistique dans l'analyse de données incomplètes: (i) La théorie de l'apprentissage statistique offre une flexibilité inférentielle étendue, ce qui conduit à couvrir un plus large éventail de situations dans des problèmes du monde réel; et (ii) il pourrait utiliser la capacité de calcul des ordinateurs modernes pour résoudre des problèmes complexes ou complexes d'analyse de données. De plus, à partir de maintenant, certaines techniques d'apprentissage se sont déjà révélées très prometteuses dans la pratique. La puissance accrue offerte par ces méthodes est ce qui justifie la pertinence de la présente recherche.Nous étudions ici les sujets suivants, dans le cadre de données biaisées et censurées: (i) l'apprentissage de la fonction de distribution, (ii) le problème de minimisation des risques et sa cohérence, (iii) l'apprentissage de la fonction de régression, (iv) la sélection de la variable de régression basée sur l'estimation du maximum de vraisemblance, (v) l'application de la cartographie des réseaux de neurones pour résoudre le problème d'apprentissage, et (vi) certains problèmes importants et ouverts ainsi que quelques défis à considérer dans les études futures. Les trois premiers problèmes font partie des problèmes les plus fondamentaux de la théorie de l'apprentissage statistique et sont résolus ici, avec succès, pour des données biaisées et censurées. En particulier, nous dérivons les mesures de probabilité empiriques appropriées, définies en termes de données biaisées et censurées, qui peuvent estimer de manière cohérente les mesures de probabilité réelles sous-jacentes. Il est illustré comment les résultats peuvent être appliqués davantage pour minimiser le risque fonctionnel. De plus, une méthode de régression par noyau pour une estimation correcte de la fonction de régression, en présence de biais et de censure, est proposée. En outre, les conséquences de certaines approches naïves du problème sont indiquées. Dans le cadre du quatrième problème, nous considérons deux méthodes de sélection de variables basées sur la vraisemblance, appelées approches conditionnelle et conjointe. La première est, en fait, basée sur l'approche conventionnelle de l'analyse de régression, c'est-à-dire conditionnant la vraisemblance de la réponse sur les covariables. Elle est dite conventionnelle car elle est basée sur la définition de la fonction de régression et est la méthode, normalement, utilisée dans les problèmes de régression. En revanche, nous proposons une deuxième approche qui utilise la vraisemblance conjointe des covariables et la réponse pour sélectionner les variables. Cette approche a été créée à l'origine pour l'estimation des paramètres mais nous étendons son application au problème de la sélection des variables. Nous pensons que cette dernière approche pourrait être supérieure à la première en termes de sélection du sous-ensemble correct de caractéristiques influentes. Certaines propriétés mathématiques des deux méthodes, qui seraient responsables de cette supériorité, sont dérivées et discutées. Enfin, une brève étude de simulation établit une comparaison entre les deux approches, dont le résultat soutient l'hypothèse de la suprématie de l'approche inconditionnelle sur l'autre. Cependant, fournir une preuve mathématique complète, en faveur ou contre cette hypothèse, nécessite une enquête plus approfondie. Ensuite, nous fournissons une étude complète des réseaux de neurones dits de cartographie et de leur capacité à résoudre le problème principal de l'apprentissage statistique. Nous remontons les racines mathématiques justifiant les capacités d'estimation des réseaux il y a plus d'un siècle. Divers problèmes mathématiques connexes, tels que le problème de solvabilité algébrique et le théorème de représentation de Kolmogorov-Arnold, sont introduits et leur relation avec les réseaux de neurones cartographiques est examinée. Nous montrons comment la distinction entre l'approximation et la représentation explique la capacité de ces réseaux en estimation de fonction. Pour conclure, nous discutons de la pertinence des réseaux de neurones dans le cadre de la théorie de l'apprentissage statistique. Plus précisément, nous discutons des raisons pour lesquelles les réseaux de neurones ne sont pas capables de résoudre complètement le problème d'apprentissage, selon les principes d'apprentissage statistique d'un apprentissage fiable. Enfin, quelques défis ouverts, y compris le problème de classification, la détection de la direction de la dépendance et l'apprentissage de la dimension intrinsèque des données, dans le contexte de données biaisées et censurées, sont introduites et, rapidement, discutées. Comme mentionné précédemment, certains des problèmes résolus ici, tels que l'estimation de la fonction de distribution et le problème de minimisation des risques, sont d'une importance cruciale en théorie de l'apprentissage statistique. La raison, comme expliqué au chapitre 3, est que la résolution des principales formes génériques des problèmes d'apprentissage supervisé, c'est-à-dire l'estimation de la densité, la régression et la classification ou la reconnaissance de formes, se résume à résoudre les problèmes de minimisation des risques et d'estimation de la distribution.

Department: Department of Mathematics and Industrial Engineering
Program: Mathématiques
Academic/Research Directors: François Soumis and Masoud Asgharian
PolyPublie URL: https://publications.polymtl.ca/6622/
Institution: Polytechnique Montréal
Date Deposited: 19 Oct 2021 13:31
Last Modified: 08 Apr 2024 09:25
Cite in APA 7: Robatian, D. (2021). Weakly-Supervised Learning from Incomplete Data [Ph.D. thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/6622/


Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item