Modèle de prévision des taux de clics des annonces textuelles sur les moteurs de recherche

Farooq Sanni

Mémoire de maîtrise (2017)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (1MB)

Afficher le résumé

Cacher le résumé

Résumé

Le taux de clics est une métrique essentielle dans les campagnes publicitaires sur les moteurs de recherche. En effet, il impacte directement les deux acteurs principaux de la publicité en ligne que sont les moteurs de recherche d'un côté et les annonceurs de l'autre. D'une part le taux de clics est la principale variable utilisée par les moteurs de recherche dans leur algorithme d'affichage des annonces textuelles. Aussi leurs revenus sont intimement liés à l'ordre d'affichage des différentes annonces. De plus, proposer une publicité pertinente à un utilisateur améliore son expérience et l'incite à utiliser davantage le moteur de recherche. D'autre part, le taux de clics joue le rôle d'indice de qualité pour les annonceurs ; ces derniers ajustent les paramètres de leurs campagnes suivant les valeurs du taux de clics. Une bonne prédiction du taux de clics est alors très importante aussi bien pour les moteurs de recherche que pour les annonceurs. Pour prédire le taux de clics, les moteurs de recherche disposent d'un historique riche et dé- taillé des réalisations des annonces textuelles. Les principales variables disponibles sont des variables catégoriques issues des informations sur les annonceurs, les utilisateurs ou encore des données géographiques. Dans ce mémoire, la régression logistique est appliquée deux fois pour prédire le taux de clics. Les données des campagnes publicitaires contiennent beaucoup d'observations à taux de clics nul complexifiant la modélisation. Ainsi, la première régression logistique permet d'écarter ces observations tandis que la seconde prédit le taux de clics des autres observations. Aussi des variables « inédites » sont utilisées dans ces deux régressions. En effet les variables position moyenne, nombre d'impressions et coût sont d'abord modélisées, puis elles sont utilisées comme variables explicatives dans le modèle logistique. Ces variables sont en réalité des variables de réponse tout comme le taux de clics. Ainsi nous proposons un modèle pour chacune de ces variables. La loi normale tronquée est ajustée à la position moyenne ; pour le nombre d'impressions et le coût, différents modèles sont explorés notamment les modèles linéaires généralisés (Poisson, Gamma, lognormal). Des modèles de type hurdle sont finalement retenus. Aussi, nous montrons qu'une hypothèse d'indépendance temporelle des observations, nécessaire à l'application de nos méthodes, est plausible malgré le phénomène de mesures répétées. Enfin les expériences menées sur des données réelles, montrent que cette modélisation en chaîne donne de bons résultats et peut encore être améliorée.

Abstract

Click-through rate is an essential metric in advertising campaigns on search engines. As a matter of fact, it directly impacts the two main players of online advertising which are search engines and advertisers. On the one hand, the click-through rate is the main variable used by search engines in their algorithm for displaying text ads. Also their revenues are intimately linked to the order of display of the different ads. Additionally, offering relevant advertising to a user improves their experience and encourages them to make greater use of the search engine. On the other hand, the click-through rate plays the role of a quality score for advertisers who adjust their campaign settings based on click-through rate values. A good click-through rate prediction is very important for both search engines and advertisers. To predict the click-through rate, search engines have a large amount of historical data on text ads. The main variables available are categorical variables derived from information about advertisers, users, or geographic data. In this paper, logistic regression is applied twice to pre- dict the click-through rate. Campaign data contains many observations with zero clicks that make modeling more complex. The first logistic regression then discards these observations while the second predicts the click-through rate of the other observations. Also, new variables are used in these two regressions. Indeed the variables mean position, number of impressions and cost are first modeled then they are used as explanatory variables in the logistic model. These variables are actually response variables as the click-through rate. Thus, we propose a model for each of these variables. The truncated normal distribution is adjusted to the mean position ; for the number of impressions and the cost, different models are explored in particular some generalized linear models (Poisson, Gamma, lognormal). Hurdle models are finally retained. We also show that a hypothesis of temporal independence of observations, necessary for the application of our methods, is plausible despite the phenomenon of repeated measures. Finally, experiments carried out on real data show that this chain modeling gives good results and can be further improved.

Département:	Département de mathématiques et de génie industriel
Programme:	Maîtrise recherche en mathématiques appliquées
Directeurs ou directrices:	Luc Adjengue
URL de PolyPublie:	https://publications.polymtl.ca/2725/
Université/École:	École Polytechnique de Montréal
Date du dépôt:	16 nov. 2017 14:37
Dernière modification:	06 avr. 2024 06:03

Citer en APA 7:	Sanni, F. (2017). Modèle de prévision des taux de clics des annonces textuelles sur les moteurs de recherche [Mémoire de maîtrise, École Polytechnique de Montréal]. PolyPublie. https://publications.polymtl.ca/2725/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document