Master's thesis (2020)
Open Access document in PolyPublie |
|
Open Access to the full text of this document Terms of Use: All rights reserved Download (1MB) |
Abstract
As a micro-blogging tool, Twitter is one of the most popular social networking platforms. With 500 million tweets per day, it is an appropriate data source for mining broadcast messages to analyze firms' online behaviour and communication in terms of innovation concepts. Different types of unstructured contexts in the posts present many challenges, but researchers believe that new machine learning approaches can help them analyze these data. Despite the efforts of numerous researchers to investigate these kinds of data, the scientific and operational literature have not yet provided a proper framework for analyzing innovation concepts via text mining and natural language processing (NLP) on Twitter. This research aims to explore whether firms in the Custom Computer Programming Services sector mention innovation concepts in their Twitter accounts and whether a simple and rather crude use of NLP can quickly pick this up. More specifically, this study aims to answer three research questions: (1) To what extent do firms demonstrate an interest in innovation concepts in their tweets? (2) Which words are used most frequently by firms in that sector? Finally, (3) to what extent does the use of Latent Dirichlet Allocation (LDA) effectively identify tweets related to innovation? Text mining and the LDA model have been used to search and explore the tweet content to evaluate and visualize frequently used words. We mined tweet text to find words related to specific innovation concepts. Our first step was to choose five innovation factors. They are R&D, IP (Intellectual Property), collaboration, external financing, and creativity. Also, we selected related keywords identified from different sources for these factors in five reference tables. For the second step, we used text mining techniques via LINQ and C# in Visual Studio to answer the first research question. The results show that collaboration concepts are the most used in firms' tweets. To answer the second and third research questions, we employed NLP techniques and LDA topic modelling using Python programming language to find the most frequent terms. Moreover, by using five innovation factors and expanding their related keywords results show that the LDA model can help find the most probable tweets as creativity, R&D and collaboration.
Résumé
Twitter, en tant qu'outil de micro-blogging, est l'une des plus célèbres plateformes de réseaux sociaux. Avec 500 millions de tweets par jour, c'est une source de données propice à l'exploration des messages publiés pour analyser le comportement et la communication en ligne des entreprises en termes de concepts d'innovation. Les différents types de contextes non structurés dans les postes présentent de nombreux défis. Des chercheurs suggèrent que de nouvelles approches d'apprentissage machine peuvent les aider à analyser ces données. Malgré les différents efforts des chercheurs pour analyser ce type de données, la littérature scientifique et opérationnelle n'a pas encore fourni de cadre d'analyse des concepts d'innovation par l'exploration de texte et le traitement du langage naturel (TLN) sur Twitter. Ce travail de recherche vise à explorer si les entreprises des secteurs des services de programmation informatique personnalisée mentionnent différents concepts d'innovation dans leurs comptes Twitter, et si une utilisation simple et plutôt grossière du TNL peut rapidement prendre cela en compte. Plus précisément, l'objectif de cette étude est de répondre à trois questions de recherche : (1) dans quelle mesure les entreprises s'intéressent-elles aux concepts d'innovation dans leurs tweets ? (2) quels sont les mots les plus fréquemment utilisés dans les tweets des entreprises de ce secteur ? et enfin, (3) dans quelle mesure l'utilisation de l'algorithme « Latent Dirichlet Allocation » (LDA) identifie-t-elle efficacement les sujets liés à l'innovation dans les tweets des entreprises ? Pour atteindre ces objectifs, du text mining et du modèle Latent Dirichlet Allocation (LDA) a été utilisée pour rechercher et explorer le contenu des tweets en ce qui concerne l'évaluation et la visualisation des mots fréquents et des sujets discutés dans les tweets. Nous avons spécifiquement fouillé le texte contenu dans les tweets pour trouver les mots liés à des concepts d'innovation spécifiques. Dans un premier temps, cinq facteurs d'innovation ont été choisis et les mots clés associés provenant de différentes sources ont été rassemblés dans cinq tableaux de référence. Ces facteurs sont les suivants R&D, propriété intellectuelle, collaboration, financement externe et créativité, Pour la deuxième étape, l'utilisation de techniques de fouille de texte via LINQ et C# en studio visuel aide à répondre à la première question de recherche ; les résultats montrent que la collaboration est le facteur d'innovation le plus utilisé dans les tweets des entreprises. En ce qui concerne la réponse aux deuxième et troisième questions de recherche, l'utilisation des techniques du TNL et la modélisation thématique de LDA permettent de trouver les termes les plus fréquents. De plus, en utilisant cinq facteurs d'innovation et en élargissant nos mots-clés liés à chaque facteur, les résultats montrent que le modèle LDA peut aider à trouver les sujets les plus probables dans les tweets, tels que la créativité, la R&D et la collaboration.
Department: | Department of Mathematics and Industrial Engineering |
---|---|
Program: | Maîtrise recherche en génie industriel |
Academic/Research Directors: | Catherine Beaudry |
PolyPublie URL: | https://publications.polymtl.ca/6270/ |
Institution: | Polytechnique Montréal |
Date Deposited: | 14 Jul 2021 10:47 |
Last Modified: | 27 Sep 2024 22:44 |
Cite in APA 7: | Jafari, M. (2020). Exploring Innovation Concepts in Twitter Via LDA Topic Modelling the Case Custom Computer Programming Services [Master's thesis, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/6270/ |
---|---|
Statistics
Total downloads
Downloads per month in the last year
Origin of downloads