Thèse de doctorat (2025)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (4MB) |
Résumé
Cette thèse aborde les limites critiques des indicateurs traditionnels pour mesurer l’innovation et la durabilité des entreprises. Alors que les mesures conventionnelles souffrent de décalages temporels, de coûts élevés, d’un manque de consensus et d’une couverture incomplète, les sites web d’entreprises offrent une source de données riche et évoluant potentiellement en temps réel. Cependant, les tentatives précédentes d’exploitation des données web ont été freinées par des lacunes méthodologiques, donnant des résultats mitigés. Cette recherche comble cette lacune en répondant à la question générale suivante : Les signaux des sites web représentent-ils des mesures valides et fiables de la qualité sous-jacente de l’innovation et de la durabilité que les organisations tentent de communiquer ? Pour répondre à cette question, cette thèse développe et valide de nouvelles méthodologies basées sur le traitement du langage naturel (TAL ou Natural language processing – NLP – en anglais) à travers trois études distinctes. La première étude analyse les sites web de 1 110 entreprises certifiées B-Corp, en utilisant un modèle de classification de texte sans apprentissage supervisé (Zéros-Shot Text Classification – ZSTC) pour créer des indicateurs environnementaux basés sur le web. Les résultats démontrent que ces indicateurs, combinés à des métadonnées classiques sur l’entreprise, expliquent 57 % de la variance de l’indice de performance environnementale officiel de B-Lab. Ceci confirme que les signaux de durabilité dans les sites web peuvent refléter de manière crédible des performances d’entreprise tangibles et validées par des tiers. La deuxième étude examine les signaux liés à l’innovation en analysant les sites web de 5 696 entreprises canadiennes de la plateforme CrunchBase. En utilisant un nouveau pipeline combinant la génération augmentée par la recherche (Retrieval-Augmented Generation – RAG) et la modélisation de sujets, la recherche montre que les signaux des sites web, tels que l’expérience des fondateurs·rices et les annonces de financement antérieures, sont significativement corrélés avec la capacité d’une entreprise à obtenir des capitaux privés. Ceci constitue l’une des premières applications de la théorie du signal numérique (utilisant les sites web) aux résultats de financement privé. La troisième étude compare les indicateurs dérivés du web avec les données de l’enquête sur l’innovation et les stratégies d’entreprise (EISE ou Survey of Innovation and Business Strategy – SIBS – en anglais) officielle. Tout en révélant un écart quantitatif dans les déclarations, les résultats montrent un fort alignement thématique pour les signaux stratégiquement importants, en particulier ceux concernant les collaborations et les innovations ayant un bénéfice environnemental, renforçant le rôle des sites web en tant qu’outils de communication organisés. Cette thèse contribue principalement à la théorie du signal, démontrant que la fiabilité d’un signal numérique dépend de son contexte stratégique. Dans les domaines fortement surveillés comme la durabilité, les sites web agissent comme un miroir, reflétant des performances vérifiables. Dans les domaines compétitifs comme la levée de fonds, ils fonctionnent comme une lentille, projetant des qualités qui attirent les capitaux. Sur le plan méthodologique, ce travail introduit des cadres de TAL généralisables et peu coûteux qui fournissent des données granulaires et opportunes pour compléter les enquêtes traditionnelles. Sur le plan pratique, ces outils ont le potentiel d’offrir aux décideurs politiques, aux investisseurs et aux gestionnaires un moyen de suivre les tendances des entreprises en temps quasi réel, permettant une prise de décision plus agile et fondée sur des données émises par les entreprises elles-mêmes.
Abstract
This thesis addresses the critical limitations of traditional indicators for measuring corporate innovation and sustainability. While conventional metrics suffer from time lags, high costs, a lack of consensus, and incomplete coverage, corporate websites offer a rich, real-time data source. However, previous attempts to leverage web data have been hampered by methodological shortcomings, yielding mixed results. This research fills this gap by answering the following general question: Do website signals represent valid and reliable measures of the underlying innovation and sustainability quality that organizations are attempting to communicate? To answer this question, this thesis develops and validates novel methodologies based on advanced Natural Language Processing (NLP) across three distinct studies. The first study analyzes the websites of 1,110 B-Corp certified companies, using a Zero-Shot Text Classification (ZSTC) model to create web-based environmental indicators. The findings demonstrate that these indicators combined with basic company metadata explain 57% of the variance in the official B-Lab environmental performance index, confirming that sustainability signals on websites can credibly reflect tangible, third-party validated corporate performance. The second study investigates innovation-related signals by examining the websites of 5,696 Canadian firms from the CrunchBase platform. Using a novel pipeline combining retrieval-augmented generation (RAG) and topic modeling, the research shows that website signals, such as founder experience and prior funding announcements, are significantly correlated with a firm’s success in securing private capital. This marks one of the first applications of website signaling theory to private funding outcomes. The third study compares web-derived indicators with data from the official Survey of Innovation and Business Strategy (SIBS). While revealing a quantitative discrepancy in reporting, the results show a strong thematic alignment for strategically important signals, particularly concerning environmental products and collaborations, reinforcing the role of websites as curated communication tools. The primary contribution of this thesis is to Signalling Theory, demonstrating that the reliability of a digital signal is contingent on its strategic context. In high-scrutiny domains like sustainability, websites act as a mirror, reflecting verifiable performance. In competitive domains like fundraising, they function as a lens, projecting qualities that attract capital. Methodologically, this work introduces generalizable and cost-effective NLP frameworks that provide timely, granular data to supplement traditional surveys. Practically, these tools have the potential to offer policymakers, investors, and managers a way to monitor corporate trends in near real-time, enabling more agile and evidence-based decision-making.
| Département: | Département de mathématiques et de génie industriel |
|---|---|
| Programme: | Doctorat en mathématiques de l'ingénieur |
| Directeurs ou directrices: |
Catherine Beaudry |
| URL de PolyPublie: | https://publications.polymtl.ca/67851/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 11 févr. 2026 10:33 |
| Dernière modification: | 12 févr. 2026 17:02 |
| Citer en APA 7: | Cruciata, P. (2025). Development and Validation of Innovation Indicators to Help Companies in their Decision-Making Process Regarding the Introduction of new Technologies [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/67851/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
