Mémoire de maîtrise (2025)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (16MB) |
Résumé
Dans ce travail, nous étudions les défis et risques liés au déploiement de modèles complexes d’apprentissage machine (machine learning, ML) dans des applications critiques. Nous débutons par un survol de différentes méthodes de la litérature utilisées pour renforcer la fiabilité de ces modèles afin d’introduire le concept de pipeline d’apprentissage machine fiable (trustworhty). Nous étudions spécifiquement les besoins et les contraintes associées aux centrales virtuelles étant donné leur besoin de meilleurs algorithmes de prédiction et la sévérité potentielle d’erreurs opérationnelles. Nous proposons plusieurs contributions visant à améliorer la sûreté des modèles d’apprentissage, et ce tout au long de leur cycle de vie, sans compromettre leur performance. Comme première contribution, nous présentons une nouvelle méthode d’entraînement robuste en distribution, sous la distance de Wasserstein, pour les réseaux de neurones convexes peu profond (shallow convex neural networks, SCNNs) soumis à des jeux de données corrompues. Notre approche repose sur un nouveau problème d’optimisation d’entraînement convexe permettant de faire le pont entre les réseaux de neurones ReLU convexes optimaux et les réseaux de neurones ReLU non-convexes. Nous adaptons ce programme d’entraînement sous sa formulation robuste en distribution avec la distance de Wasserstein de premier ordre. Cette méthode est conservatrice, a une basse stochasticité attribuable à la convexité, est résoluble avec des solveurs libres accès, et peut être facilement déployées à grande échelle. Nous obtenons des garanties de performance théoriques hors échantillon, nous démontrons comment adapter l’entraînement pour inclure des contraintes physiques convexes, et nous proposons un problème de vérification post-entraînement pour évaluer la stabilité des réseaux de neurones convexes peu profond. Finalement, nous évaluons numériquement notre méthode sur des jeux de données synthétiques; une application réelle de la centrale virtuelle québécoise, soit la prédiction horaire de consommation d’énergie d’immeubles non-résidentiels; et testons la stabilité sur des jeux de données de références en apprentissage machine.
Abstract
In this work, we study some of the issues and risks of deploying complex machine learning models in safety-critical applications. By looking into the literature, we first present a global portrait of the different initiatives to make these models more reliable. We then introduce the general concept of trustworthy machine learning pipelines from pre-deployment to model exploitation. We specifically study the needs and constraints associated with virtual power plants as they are perfect examples of large-scale critical applications benefiting from the integration of complex machine learning. We then propose different contributions aiming at enhancing model safety with minimal compromise. We first propose Wasserstein distributionally robust shallow convex neural networks (SCNNs) to provide reliable nonlinear predictions when subject to adverse and corrupted datasets. Our approach is based on a new convex training program for ReLU-based shallow neural networks which allows us to cast the problem as an exact, tractable reformulation of its order-1Wasserstein distributionally robust counterpart. Our training procedure is conservative, has low stochasticity, is solvable with open-source solvers, and is scalable to large industrial deployments. We provide out-of-sample performance guarantees, show that hard convex physical constraints can be enforced in the training program, and propose a mixed-integer convex post-training verification program to evaluate model stability. Finally, we numerically demonstrate the performance of our model on a synthetic experiment, a real-world power system application, viz., the prediction of nonresidential buildings’ hourly energy consumption in the context of virtual power plants, and on benchmark datasets. We then propose a new unsupervised anomaly detection method using the sliced-Wasserstein distance. This filtering technique is conceptually interesting forMLpipelines deploying machine learning models in critical sectors as it offers a conservative data selection and an optimal transport interpretation. To ensure the scalability of the method, we provide two approximations. The first approximation relies on filtering reduced-cardinality representations of the datasets in parallel, it is viable when multiple computational threads are available. The second approximation makes use of a fast-to-compute Euclidian distance approximation. Additionally, we open the first dataset showcasing localized critical peak rebate demand response in a northern climate. We present the filtering patterns of our method on synthetic datasets and numerically benchmark our method for anomaly detection and for training data selection. We then use our method as part of a first benchmark model for our open-source dataset.
| Département: | Département de génie électrique |
|---|---|
| Programme: | Génie électrique |
| Directeurs ou directrices: |
Antoine Lesage-Landry |
| URL de PolyPublie: | https://publications.polymtl.ca/64736/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 26 août 2025 10:41 |
| Dernière modification: | 26 août 2025 12:58 |
| Citer en APA 7: | Pallage, J. (2025). Contributions to the Trustworthy Machine Learning Pipeline: Data Selection, Training, and Post-training Verification through Convexity and the Wasserstein Distance [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/64736/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
