<  Back to the Polytechnique Montréal portal

Modèle de prévision des taux de clics des annonces textuelles sur les moteurs de recherche

Farooq Sanni

Masters thesis (2017)

[img]
Preview
Download (1MB)
Cite this document: Sanni, F. (2017). Modèle de prévision des taux de clics des annonces textuelles sur les moteurs de recherche (Masters thesis, École Polytechnique de Montréal). Retrieved from https://publications.polymtl.ca/2725/
Show abstract Hide abstract

Abstract

RÉSUMÉ : Le taux de clics est une métrique essentielle dans les campagnes publicitaires sur les moteurs de recherche. En effet, il impacte directement les deux acteurs principaux de la publicité en ligne que sont les moteurs de recherche d’un côté et les annonceurs de l’autre. D’une part le taux de clics est la principale variable utilisée par les moteurs de recherche dans leur algorithme d’affichage des annonces textuelles. Aussi leurs revenus sont intimement liés à l’ordre d’affichage des différentes annonces. De plus, proposer une publicité pertinente à un utilisateur améliore son expérience et l’incite à utiliser davantage le moteur de recherche. D’autre part, le taux de clics joue le rôle d’indice de qualité pour les annonceurs ; ces derniers ajustent les paramètres de leurs campagnes suivant les valeurs du taux de clics. Une bonne prédiction du taux de clics est alors très importante aussi bien pour les moteurs de recherche que pour les annonceurs. Pour prédire le taux de clics, les moteurs de recherche disposent d’un historique riche et dé- taillé des réalisations des annonces textuelles. Les principales variables disponibles sont des variables catégoriques issues des informations sur les annonceurs, les utilisateurs ou encore des données géographiques. Dans ce mémoire, la régression logistique est appliquée deux fois pour prédire le taux de clics. Les données des campagnes publicitaires contiennent beaucoup d’observations à taux de clics nul complexifiant la modélisation. Ainsi, la première régression logistique permet d’écarter ces observations tandis que la seconde prédit le taux de clics des autres observations. Aussi des variables « inédites » sont utilisées dans ces deux régressions. En effet les variables position moyenne, nombre d’impressions et coût sont d’abord modélisées, puis elles sont utilisées comme variables explicatives dans le modèle logistique. Ces variables sont en réalité des variables de réponse tout comme le taux de clics. Ainsi nous proposons un modèle pour chacune de ces variables. La loi normale tronquée est ajustée à la position moyenne ; pour le nombre d’impressions et le coût, différents modèles sont explorés notamment les modèles linéaires généralisés (Poisson, Gamma, lognormal). Des modèles de type hurdle sont finalement retenus. Aussi, nous montrons qu’une hypothèse d’indépendance temporelle des observations, nécessaire à l’application de nos méthodes, est plausible malgré le phénomène de mesures répétées. Enfin les expériences menées sur des données réelles, montrent que cette modélisation en chaîne donne de bons résultats et peut encore être améliorée.----------ABSTRACT : Click-through rate is an essential metric in advertising campaigns on search engines. As a matter of fact, it directly impacts the two main players of online advertising which are search engines and advertisers. On the one hand, the click-through rate is the main variable used by search engines in their algorithm for displaying text ads. Also their revenues are intimately linked to the order of display of the different ads. Additionally, offering relevant advertising to a user improves their experience and encourages them to make greater use of the search engine. On the other hand, the click-through rate plays the role of a quality score for advertisers who adjust their campaign settings based on click-through rate values. A good click-through rate prediction is very important for both search engines and advertisers. To predict the click-through rate, search engines have a large amount of historical data on text ads. The main variables available are categorical variables derived from information about advertisers, users, or geographic data. In this paper, logistic regression is applied twice to pre- dict the click-through rate. Campaign data contains many observations with zero clicks that make modeling more complex. The first logistic regression then discards these observations while the second predicts the click-through rate of the other observations. Also, new variables are used in these two regressions. Indeed the variables mean position, number of impressions and cost are first modeled then they are used as explanatory variables in the logistic model. These variables are actually response variables as the click-through rate. Thus, we propose a model for each of these variables. The truncated normal distribution is adjusted to the mean position ; for the number of impressions and the cost, different models are explored in particular some generalized linear models (Poisson, Gamma, lognormal). Hurdle models are finally retained. We also show that a hypothesis of temporal independence of observations, necessary for the application of our methods, is plausible despite the phenomenon of repeated measures. Finally, experiments carried out on real data show that this chain modeling gives good results and can be further improved.

Open Access document in PolyPublie
Department: Département de mathématiques et de génie industriel
Dissertation/thesis director: Luc-Désiré Adjengue
Date Deposited: 16 Nov 2017 14:37
Last Modified: 24 Oct 2018 16:12
PolyPublie URL: https://publications.polymtl.ca/2725/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only