<  Retour au portail Polytechnique Montréal

Estimation statistique de données manquantes en inventaire du cycle de vie

Vincent Moreau

Thèse de doctorat (2012)

[img]
Affichage préliminaire
Télécharger (2MB)
Citer ce document: Moreau, V. (2012). Estimation statistique de données manquantes en inventaire du cycle de vie (Thèse de doctorat, École Polytechnique de Montréal). Tiré de https://publications.polymtl.ca/869/
Afficher le résumé Cacher le résumé

Résumé

Un problème rencontré par de nombreuses méthodes d’évaluations d'impacts sur l'environnement est le manque de données fiables. L'analyse du cycle de vie (ACV), un outil d’évaluation des impacts pour produits, procédés et services sur l'ensemble de la chaîne de production, consommation et élimination, ne fait pas exception. Les raisons expliquant le manque de données sont multiples, la collecte peut être physiquement, économiquement ou légalement infaisable. Plus important encore sont l'absence de données et les incertitudes qui découlent de connaissances insuffisantes sur le fonctionnement ou l’état d'un système, d'une technologie émergente à l’évolution du climat. En ACV, l'inventaire du cycle de vie est une étape particulièrement gourmande en données puisqu'il s'agit de quantifier les flux d’énergie et de matériaux traversant les frontières d'un système, incluant les émissions. Différentes sources de données empiriques et génériques sont utilisées lorsque disponibles. Les bases de données d'inventaire et références bibliographiques, si elles ne sont pas nécessairement représentatives du contexte à l’étude, sont souvent ajustées en fonction de la situation géographique ou des technologies en vigueur. En parallèle, quelques approches existent pour estimer les données lorsque celles-ci ne sont pas disponibles, dont la contribution principale de cette thèse. L'objectif de ce travail de recherche est d’améliorer la qualité des données d'inventaire en proposant une méthode d'estimation des données manquantes et des incertitudes correspondantes. Contrairement aux bilans de masse et d’énergie pour un procédé donné, l'approche développée ici consiste à modéliser les processus à l'aide d'estimateurs statistiques dont les propriétés sont adaptées aux échantillons de petites tailles et aux données très variables. L’hypothèse de recherche est la suivante: un estimateur nommé krigeage permet d’intégrer l'estimation de données manquantes et de leurs incertitudes de façon plus fiables qu'avec d'autres techniques linéaires. Emprunté à la géostatistique, il présente les avantages d’être flexible sur les modèles de relation entre variables dépendantes et indépendantes et d’être un estimateur exact, sans erreur statistique lorsque les données observées sont estimées, toute l'information est donc conservée. Une interprétation des paramètres du krigeage spécifique aux problèmes d'incertitude des vi données, présente d'autres avantages. Qu'elles proviennent de sources diverses ou qu'il faille recourir à toutes les données disponibles, aussi peu nombreuses soient elles, leurs variations deviennent importantes. La résolution des équations du krigeage est ainsi modifiée pour permettre d'incorporer une incertitude spécifique à chaque observation. La procédure se base sur les caractéristiques techniques, variables indépendantes, des processus étudiés pour estimer leurs besoins en énergie et matériaux et leurs émissions sur l'ensemble du cycle de vie. En comparaison avec d'autres approches, peu de données additionnelles sont nécessaires. La production d’électricité est un exemple phare du fait de son impact pour la plupart des procédés. L'hydroélectricité en particulier est mal représentée parmi les données existantes, sa production variant considérablement d'un site à l'autre. En d'autres termes il n'existe pas de centrale hydroélectrique générique. Contrairement aux flux d'inventaire de ces mêmes centrales, les spécifications techniques ou variables caractéristiques, telles que la capacité installée, la production effective, la surface d'un éventuel réservoir, etc. sont des données généralement accessibles. Les modèles de krigeage sont d'abord testés sur des données d'inventaire pour des éoliennes de puissances variées pour ensuite être appliqués d'un coté aux flux d’énergie et de matériaux nécessaires à la construction et l'exploitation de centrales et de l'autre aux émissions de gaz à effet de serre provenant des réservoirs hydroélectriques. Les résultats montrent qu'il est possible d’améliorer l'estimation des données d'inventaire grâce au krigeage. En comparant plusieurs formes de krigeage et régression linéaire, les estimations par krigeage sont non seulement plus précises mais les écarts type couvrent aussi les données de manière plus exacte. Lorsque les données observées sont incomplètes, c'est à dire que les flux d'inventaire ne sont pas disponibles pour toutes les observations, les erreurs d'estimation sont plus faibles pour le krigeage que la régression linéaire. Plus précisément, le krigeage d'un flux d'inventaire sur base de deux variables caractéristiques présente des erreurs encore plus faibles que son cousin multivarié, le cokrigeage. Par validation croisée, les erreurs d'estimation sont en moyenne plus faible pour le krigeage que la régression linéaire, que les données observées soient complètes ou non. L'application de plusieurs variables caractéristiques améliore la qualité des estimations lorsqu'elles sont positivement corrélées. De plus, la modification du vii système de krigeage pour intégrer une mesure d'incertitude propre à chaque observation, permet d'atteindre une réduction de la variation des données estimées. Autrement dit cette variabilité est incluse directement dans le modèle. Les estimations sont ainsi plus fiables lorsque proches des points d’échantillon dont les incertitudes sont faibles, et inversement. Pour chacun des échantillons, différents modèles reliant variables dépendantes et indépendantes sont testés, notamment les fonctions de covariance linéaire, exponentielle, sphérique et cubique, ainsi qu'une série de valeurs pour leurs paramètres. Concernant l'analyse de systèmes de production d’électricité, ces résultats impliquent en particulier une estimation des données là où elles seraient difficiles à collecter et donc une simplification du processus de récolte. Pour des technologies aussi spécifiques aux conditions géologiques ou hydrologiques que l'hydroélectrique, l'estimation de flux d'inventaire par krigeage avec intégration de cette variabilité, se révèle plus représentative du contexte géographique ou technologique, d’où des données d'inventaire de meilleure qualité. Même si le krigeage présente de nombreux avantages – ses erreurs d'estimation sont en moyenne plus faibles que la régression linéaire – des limites existent quant à son application. Les estimations se basent sur des variables indépendantes qui expliquent, avec des corrélations plus ou moins élevées, l'inventaire d'un processus. Dans la chaîne de production, il est donc possible de remonter jusqu'aux processus élémentaires dont les caractéristiques décrivent les différents flux d’énergie et de matériaux correspondants. En comparaison avec d'autres façon d'estimer ou de substituer des données manquantes, celle proposée ici ne repose sur aucun a priori ou jugement d'expert mais requiert certaines connaissances techniques pour identifier ces variables caractéristiques et valider le modèle de krigeage. Cette thèse apporte un ensemble d’évidences en faveur de l’hypothèse d'une amélioration de la modélisation des données d'inventaire du cycle de vie à l'aide du krigeage. L'approche se révèle particulièrement adaptée à l'estimation de données manquantes pour augmenter la fiabilité des inventaires et aux processus spécifiques dont les données existantes ne sont pas représentatives. ---------- A problem frequently encountered in environmental impact assessment methods is the lack of reliable data. Life cycle assessment (LCA), a decision support tool which evaluates the impacts of products, processes and services from production to consumption and disposal, is no exception. Multiple reasons explain the lack of data, the sheer size of a product system or process can limit data collection, so do the economic costs as well as legal restrictions. More important is the absence of data and corresponding uncertainties due to a lack of knowledge regarding the state or performance of a system, from new and emerging technologies to climatic change. In LCA, life cycle inventory is a particularly data intensive and sensitive phase of the analysis, requiring the quantification of energy and material flows crossing a system's boundaries as well as emissions. When available, various sources of data, empirical and generic are compiled in an inventory. Although databases and literature references are not necessarily representative of the context, they are often adjusted according to geographic location and prevailing technologies. A few techniques to estimate missing inventory data also exist, to which this thesis is an important contribution. Hence the main objective of the research work, to improve the quality of life cycle inventory data by developing a method to estimate missing data and corresponding uncertainties. Contrary to process-based models of mass and energy balance, this approach consists of statistical estimators which model processes from relatively small samples of usually high variability. The research hypothesis is as follows: the so called kriging estimator allows the combined estimation of missing data and their uncertainties in such ways that are more reliable than other linear estimators. Borrowed from spatial statistics, kriging is an estimator with several advantages, the flexibility associated with a choice of model function and the exact estimator property. In other words, kriging shows no statistical errors when estimating observed values, no data is averaged out. An interpretation of the kriging parameters specific to the problems of data uncertainty, offers more advantages. One parameter of the covariance function accounts for small scale variations of the data and taken as a proxy for uncertainty. Whether it be the variety of data ix sources, the scarcity of the data itself or both, each and every source adds to data variability and uncertainty. The kriging system of equations is therefore modified such as to integrate a factor of uncertainty specific to each observations. Comparisons between the modified and conventional forms of kriging can be drawn. The procedure is based on the relationship between technical specifications, more readily available independent variables, and the dependent material and energy flows of the processes under consideration. Such material and energy requirements as well as emissions are estimated over the entire life cycle of products and processes. The needs for additional data are relatively low compared to other approaches, namely extended input output analysis. For many products, processes and services, electricity generation and consumption account for a sizable share of the impacts. Hydroelectricity in particular is poorly represented within existing inventory data since production facilities vary considerably from one location to another. In other words, generic hydropower plants do not exist. Contrary to inventory flows, the technical specifications or characteristic variables of hydropower plants, such as the installed capacity, annual production or surface area of adjacent reservoirs, are usually publicly available. The kriging model is first tested on a data set which represents windmills of varying power capacity before it is applied to hydroelectricity. The experiment is divided according to data availability, on one hand the energy and materials required during construction, operation and maintenance of hydropower plants. On the other hand, the emissions of greenhouse gases from reservoirs are estimated. The results show that estimation of inventory data can be improved thanks to kriging. When comparing different forms of kriging and linear regression, the kriging estimates are not only more precise but the standard deviations also cover the data more accurately. Where the observed data are incomplete, that is where inventory flows are missing for part of the observations, the estimation errors are lower for kriging than linear regression. Moreover, univariate kriging of inventory flows based on two characteristic variables, shows lower errors than its multivariate kin, cokriging. On average the statistical errors calculated from cross-validation are lower for kriging than they are for linear regression, whether the observed data are x complete or not. The application of several characteristic variables improves the quality of the estimates when they are positively correlated. In addition, the modified form of kriging which accounts for degrees of uncertainty specific to each observations, results in a reduction in the variations of the estimated inventory data. That is, data variability is incorporated directly in the model. Estimates closer to more reliable observations are shown to be less uncertain and vice versa. For each of the data sets, different relationships between dependent and independent variables are tested, for example the linear, exponential, spherical and cubic covariance functions as well as a range of parameter values. For the analysis of electrical generation technologies, these results imply better estimates for data that are difficult to sample and therefore a simplified data collection process. In the case of site specific or variable processes such as hydroelectricity, the estimation of inventory data with kriging accounting for such data variability, proves more representative of the geographical or technological context. The quality of inventory data is consequently higher. Even if kriging has several advantages and its estimation errors are lower on average, some limitations to its application exist. The estimation procedure is based on independent variables explaining, with different degrees of correlation, the inventory flows of a process. In the production and consumption chain, the inventory of elementary processes can be estimated as far as characteristic variables describe the corresponding material and energy flows or emissions. Compared to other techniques for estimating or substituting missing data, the proposed approach makes no particular assumption nor requires expert judgment but the technical knowledge to identify characteristic variables and validate the kriging model. This thesis brings evidence in favor of the hypothesis that the estimation of life cycle inventory data can be improved thanks to statistical estimators such as kriging. The methodological approach proves particularly suited to increasing both, the reliability of inventories by estimating missing data and the estimation of more representative inventory data for specific processes without existing quality data.

Document en libre accès dans PolyPublie
Département: Département de génie chimique
Directeur de mémoire/thèse: Réjean Samson, Denis Marcotte et Gontran Bage
Date du dépôt: 18 oct. 2012 10:37
Dernière modification: 01 sept. 2017 17:33
Adresse URL de PolyPublie: https://publications.polymtl.ca/869/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel