<  Retour au portail Polytechnique Montréal

Science des données et politique : quatre essais pour comprendre les processus démocratiques

William Sanger

Thèse de doctorat (2019)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (21MB)
Afficher le résumé
Cacher le résumé

Résumé

Les comportements politiques des citoyens, des partis politiques et des institutions démocratiques ont évolué depuis la naissance d'Internet. Aucune élection ne se passe désormais sans l'utilisation de données générées par les individus, que ce soit avec des sondages ou avec des interactions sur les médias sociaux. En parallèle, de nouvelles méthodologies quantitatives permettent d'interpréter ces nouvelles données. Cette thèse doctorale se concentre sur la question de recherche suivante : comment les données massives et la science des données peuvent être utilisées pour comprendre les processus démocratiques à l'ère d'Internet ? Après une revue algorithmique de la littérature académique concernant les sciences politiques et les nouvelles données, puis le développement de la littérature associée aux sciences politiques et aux médias sociaux, quatre pistes de recherche sont explorées, permettant de répondre à la question de recherche générale. Chacune est associée à un article de recherche constituant le corps de la thèse. Les données récoltées à travers cette thèse doctorale sont principalement issues de Twitter (articles 1 à 3). L'article 4 utilise l'ensemble des manifestes politiques européens entre 2000 et 2018. Concernant la méthodologie, cette thèse doctorale repose sur la science des données (acquisition de données massives à partir de réseaux sociaux, économétrie, visualisations de données, traitement automatique du langage naturel). Le premier article se rapporte aux élections québécoises de 2014, et décrit la campagne électorale perdue par le Parti Québécois malgré le fait que le parti ait été au pouvoir au moment du déclenchement de l'élection. L'utilisation de modèles économétriques a permis d'associer préférentiellement les thématiques de campagne aux quatre chef·fe·s de partis politiques à partir de 672 497 tweets. Le deuxième article de recherche prend pour terrain d'observation l'élection fédérale canadienne de 2015. Les techniques d'analyse textuelle ont permis de traiter près de 3,5 millions de tweets et de révéler les dynamiques de campagnes menant à la victoire du Parti Libéral du Canada. Le troisième article de la thèse met en oeuvre plusieurs modèles économétriques pour étudier plus de deux millions de messages publiés sur Twitter au cours de la campagne électorale nigériane de 2015. Ces techniques mettent en perspective l'utilisation des données issues des médias sociaux comme source supplémentaire d'informations pour consolider la portée des sondages traditionnels. Finalement, le quatrième article de la thèse se concentre sur les différentes élections européennes ayant eu lieu entre 2000 et 2018. À partir d'une base de données de 12 millions de mots, la création de nouveaux indicateurs mesurant la similarité entre les partis politiques permet d'appréhender la notion de populisme à travers les pays européens. Les contributions de la thèse sont de trois natures. (1) Méthodologiquement, cette thèse met en oeuvre de nombreuses techniques en science des données. Cela va de la collecte de données inédites issues des médias sociaux, à la création de nouveaux indicateurs de suivis électoraux, jusqu'à la comparaison de documents écrits en plusieurs langues ou à l'attribution de thématiques de campagne aux différents candidats grâce à des modèles économétriques ou des techniques d'apprentissage semi-supervisé. Ces méthodologies permettent de comprendre le déroulement d'une élection moderne alors que sont générées en temps réel les données des individus et des organisations. (2) Les contributions sont aussi de nature théorique, avec la caractérisation des partis de gouvernement par rapport aux partis extrêmes et l'étude du populisme. (3) Finalement, les contributions sont de nature thématique, avec la publication de recherches concernant les élections québécoises de 2014, canadiennes de 2015, nigérianes de 2015 et européennes entre 2000 et 2018.

Abstract

Political behaviour of citizens, political parties and democratic institutions have evolved since the advent of the Internet. Nowadays, no election takes place without the use of real-time data provided by individuals. At the same time, new quantitative methodologies are being used to interpret these data. This doctoral thesis focuses on the following research question: how unstructured data (big data) and data science can be used to understand democratic processes in the Internet age? After an algorithmic review of the academic literature and an analysis of the literature associated to political science and social media, four research avenues are outlined to answer the general research question. Each one is associated to a research article as the corpus of the thesis. The data collected through this doctoral thesis are mainly from Twitter (articles 1 to 3). Article 4 takes into account all European political manifestos between 2000 and 2018. With regard to the methodology, this doctoral thesis is based on data science (data acquisition from social networks, econometrics, data visualization, algorithmic analysis of textual content). The first article refers to the 2014 Quebec election, and describes the election lost by the Parti Québécois despite having been the incumbent party. The use of econometric models made it possible to associate campaign topics with the four leaders of political parties from 672,497 tweets. The second research article takes as its field of observation the 2015 Canadian federal election. With textual analysis techniques, nearly 3.5 million tweets have been processed in order to understand the victory of the Liberal Party of Canada. The third article of the thesis uses several econometric models to study more than two million messages published during the 2015 Nigerian election campaign. These techniques put in perspective the use of social media data as an additional source of information to consolidate traditional surveys. Finally, the fourth article of the thesis focuses on the various European elections that took place between 2000 and 2018. Using a 12 million word database, the creation of new indicators measuring similarity between political parties makes it possible to understand the notion of populism across European countries. The contributions of the thesis are of three types. (1) Methodologically, this thesis uses several techniques in data science. This ranges from collecting new data from social media, to creating indicators monitoring elections, to comparing documents in different languages or assigning campaign themes to candidates using econometric models or semi-supervised machine learning techniques. These methodologies make it possible to understand the conduct of a modern election when data from individuals and organizations are generated in real time. (2) The contributions are also of a theoretical nature, with the characterization of governing parties versus populist parties. (3) Finally, the contributions are of a thematic nature, with the publication of research on the Quebec elections of 2014, the Canadian elections of 2015, the Nigerian elections of 2015 and the European elections between 2000 and 2018.

Département: Département de mathématiques et de génie industriel
Programme: Doctorat en génie industriel
Directeurs ou directrices: Nathalie De Marcellis-Warin et Thierry Warin
URL de PolyPublie: https://publications.polymtl.ca/3872/
Université/École: Polytechnique Montréal
Date du dépôt: 12 juin 2019 15:37
Dernière modification: 06 avr. 2024 03:10
Citer en APA 7: Sanger, W. (2019). Science des données et politique : quatre essais pour comprendre les processus démocratiques [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/3872/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document