<  Back to the Polytechnique Montréal portal

Estimation du volume marchand de bois à partir de techniques d'apprentissage automatique

Mayra Ferreira Alves Oliveira Mbamu

Master's thesis (2022)

[img] Restricted to: Repository staff only until 17 July 2024
Terms of Use: All rights reserved
Show abstract
Hide abstract

Abstract

Merchantable volume is one of the main dendrometric variables that influence the planning of forestry operations, so companies in the sector increasingly seek its accuracy. The goals of this study are to estimate the merchantable volume of wood according to the forest structure and according to the forest species of commercial interest in the territory of Southern Quebec. Using data from public sources of temporary sample plots, the methodology involves five major steps: data preparation, which consists of delimiting the study area and acquiring, selecting, integrating, and pre-processing the data. This is followed by the grouping step that groups the data into groups of data according to the types of forest structure and the species of commercial interest. The next step, the modeling step, consists of applyingthe selected models. Then, the evaluation stage to evaluate the performance of the models, and finally the validation stage that evaluates the quality of the model on the real data. At the grouping stage, oversampling techniques were applied to fill in the gaps in the data after separating the data between the established groups, either by type of forest structure or by species of commercial interest. Although the application of these techniques is frequently applied to classification problems, in this case, data augmentation is intended to simulate data augmentation, i.e. data augmentation from plots samples. Regarding the validation of our best model, the LIDAR model (forel) served as a benchmark because the qualities of its precision for the estimation of dendrometric data are the best available at the time of data acquisition on the selected territory. The results show that increasing the number of sample plots does not improve the performance of the model. In addition, the best model is the XGBoost with an RMSE of 33.75m3/ha for the scenarios tested on real data. This work raises the potentialities of machine learning models on forest data; these contributions are on the application of oversampling techniques by simulating a larger amount of data obtained in the field i.e., data from forest inventories, the results of which showed that more data did not change the performance of the models. This gives us the clue that there is no need for a large sample of data to get to a good enough performance of timber volume estimation.

Résumé

Le volume marchand est une des principales variables dendrométriques qui influence la planification des opérations forestière, donc sa précision est de plus en plus recherchée par les entreprises du secteur. Les buts de cette étude sont d’estimer le volume marchand de bois selon la structure forestière et selon les essences forestières d’intérêt commercial sur le territoire du Québec méridional. À partir des données de sources publiques des placettes-échantillons temporaires, la méthodologie porte sur cinq grandes étapes. La première, appelée, la préparation de données consiste à délimiter l’aire d’étude et à acquérir, sélectionner, intégrer et prétraiter les données. Suivi par l’étape de regroupement qui regroupe les données en groupes de données selon les types de structure forestière et selon les essences d’intérêt commercial. L’étape d’après, l’étape de modélisation constituée d’application des modèles sélectionnés. Ensuite, l’étape d’évaluation pour évaluer la performance des modèles, et finalement l’étape de validation qui évalue la qualité du modèle sur les données réelles. À l’étape de regroupement, des techniques de suréchantillonnage ont été appliquées pour combler le manque des données après la séparation des données entre les groupes établis, soit par type de structure forestière ou par essence d’intérêt commercial. Bien que l'application de ces techniques soit fréquemment appliquée à des problèmes de classification, dans ce cas, l'augmentation des données est destinée à simuler l'augmentation des données, c'est-à-dire augmentation de données issues des placettes-échantillons. Concernant la validation de notre meilleur modèle, le modèle LIDAR (forel) a servi de repère, car les qualités de ses précisions pour l’estimation de données dendrométriques sont les meilleurs disponibles au moment d’acquisition de données sur le territoire sélectionné. Les résultats démontrent que l’augmentation de la quantité de placettes-échantillons n’apporte pas d’amélioration à performance du modèle. Le meilleur modèle est celui XGBoost avec une RMSE de 33,75m3/ha aux scénarios testés sur des données réelles. La méthodologie permet donc de réaliser de bonnes estimations des quantités de bois à partir des données. Ce travail soulève les potentialités des modèles d’apprentissage automatique sur les données forestières. Ces contributions sont sur l’application des techniques de suréchantillonnage en simulant une plus grande quantité de données obtenues sur le terrain, c'est-à-dire des données issues d'inventaires forestiers, dont les résultats ont montré qu'une plus grande quantité de données n'a pas changé la performance des modèles. Cela nous donne l’indice ce qu’il n’y a pas le besoin d’un grand échantillon de données pour se rendre à une performance assez bonne d’estimation de volume de bois. L’utilisation de notre modèle se limite au territoire du Québec méridional, parce que les données territoriales et dendrométriques peuvent se différer entre les régions et cela peut apporter des influences significatives sur les performances du modèle. Tandis que, les bénéfices de cette méthode reposent sur l’utilisation de données disponibles publiquement et l’utilisation de données résultant de compilation des imagerie et photo-interprétation. Semblablement, notre modèle peut s’appliquer sur toute extension du territoire du Québec Méridional, surtout où il n’y a pas encore des estimations disponibles par les données LiDAR (forel). Mots-clés : Planification opérationnelle forestière, suréchantillonnage, Random forest, XGBoost, Apprentissage Automatique

Department: Department of Mathematics and Industrial Engineering
Program: Maîtrise recherche en génie industriel
Academic/Research Directors: Bruno Agard and Marc-André Carle
PolyPublie URL: https://publications.polymtl.ca/10760/
Institution: Polytechnique Montréal
Date Deposited: 17 Jul 2023 11:39
Last Modified: 13 Nov 2023 01:14
Cite in APA 7: Ferreira Alves Oliveira Mbamu, M. (2022). Estimation du volume marchand de bois à partir de techniques d'apprentissage automatique [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/10760/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only

View Item View Item