On en finit plus de trouver des astuces aujourd’hui pour spammer en masse sur le Web. Un tas de petites techniques (des coups en quelque sorte) existent et Google analytics en particulier fait les frais souvent d’attaques généralisées. Fin d’année 2016, à l’occasion des élections américaines, vous avez peut-être vu fleurir ce qui semblait un spam referrer assez costaud (et parfois très pénible) invitant à voter pour Donald Trump. L’opération s’est d’ailleurs accentuée après même son élection. Retour sur le petit stratagème et la manière de lutter contre ces spammeurs. Armez-vous de votre console Google Analytics.
Mais d’abord, le spam referrer, c’est quoi ? Petite définition
Il s’agit d’envoyer des requêtes automatiques vers un site Internet afin de promouvoir un autre site perçu comme “référent”. C’est-à-dire donner l’illusion aux webmasters et analystes du trafic l’impression de bénéficier d’un lien naturel apportant du trafic. Ces derniers cliquant dessus apportent un trafic involontaire permettant d’améliorer le positionnement de ces sites. C’est une technique proscrite que Google s’efforce de supprimer comme le précise l’article de Olivier Andrieu mais qui sévit toujours à l’heure actuelle y compris sur des outils d’analyse comme Piwik. On a coutume de désigner deux types de spams referrer :
Le Ghost referrer Spam qui consiste simplement au black Hat de truquer les statistiques en utilisant le protocole de mesure de Google Analytics (l’ID de tracking dont nous détaillons ici la mise en place). En truquant ces statistiques par des referrals qui n’ont aucun sens comme “Vote for Trump” ;), vous voyez vos statistiques gonfler mais sans pour autant que la (les) visite(s) soi(en)t effective(s). Comme exemples célèbres : o-o-6-o-o.com ou l’horrible floatting-share-buttons.com.
Les crawler referer spam quant à eux sont de vrais robots qui se baladent sur votre site et vont de page en page : sessions, durée de visite, taux de rebond explosé, tout cela devient faussé et augmente arbitrairement les statistiques. On pense aux “semalt” et autres “anticrawlers.org” par exemple.
Plusieurs raisons motivent ce type de pratique :
A la louche, voici les raison qui motivent cette technique black hat :
- Obtenir plus de trafic de visiteurs curieux de leurs statistiques (qui n’a jamais cliqué sur ces liens en analysant ses stats),
- proposer par exemple des prestations de SEO ou vendre un produit lambda,
- Mettre parfois en place des actions néfastes et autres “joyeusetés” du Web (virus, Malwares, fishing, etc.),
- Via le crawler referrer spam, mettre hors service un serveur pour des actions de negative SEO. (Si si ça existe).
Parfois, l’ampleur du “délit” est gigantesque et c’est la loi du nombre qui marque l’efficacité de la technique :
Comment s’accaparer la notoriété d’une marque pour faire du spam
Vous l’avez peut-être subi :
Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!
Ce type de spam qui a fait un malheur en fin d’année dernière se base sur un domaine qui n’est pas celui de Google. En effet, il s’agit ici d’une imitation du “G”. C’est une lettre minuscule latine en capital ! Un caractère spécial quasi non-reconnaissable à l’oeil nu. La popularité de ce faux nom de domaine fut une usurpation pour Google qui gagna récemment son procès pour récupérer le domaine. Vous ne verrez plus spécifiquement ce spam dans vos données analytics.
Par contre, la pratique de l’achat de domaine à caractères spéciaux continue toujours. Un excellent article (en anglais) traite de cette fraude.
3 manières de se prévenir des Spams referral
Si vous avez bien configuré votre compte Google Analytics, vous avez forcément déjà coché dans “Administration -> Vue -> Paramètres de vue” la case intitulée “Exclure tous les appels provenant de robots connus “. C’est bien mais cela n’évite pas forcément l’apparition de ce type de spam :
Pour avoir accès à ce type d’information, rendez-vous sur votre console Google Analytics -> Acquisition -> Sites référents.
On pourrait se dire que de configurer le robots.txt suffirait mais c’est plus compliqué car ces spams ne passent pas par là généralement.
Voyons donc les cas par le biais de la console et par le fichier .htaccess :
Configurer le fichier htaccess pour les spams
Le fichier .htaccess vous permet d’empêcher la venue d’humains mais également de bots. Cette technique est efficace contre les crawlers (pas contre les ghosts). Voici le type de code que vous pouvez ajouter en précisant ceux qui vous gênent (pour l’exemple, buttons-for-website.com) :
[pastacode lang=”apacheconf” manual=”%23%20Bloquer%20buttons-for-website.com%0ARewriteCond%20%25%7BHTTP_REFERER%7D%20buttons%5C-for%5C-website%5C.com%0ARewriteRule%20%5E.*%20-%20%5BF%5D” message=”Bloquer buttons-for-website.com” highlight=”” provider=”manual”/]La directive RewriteCond permet de définir une condition d’exécution d’une règle qui est ici le “referer” ou site référant.
L’option de réécriture avec [F] permet de renvoyer une erreur 403 (Forbidden) ; tout ce qui provient strictement (-) de semalt (*) est ainsi interdit d’accès.
A noter que le fichier .htaccess peut rapidement subir beaucoup de nouvelles lignes et être un peu surchargé (eh oui la liste peut être longue). Une explication détaillée vous est fournie ici. Nous vous invitons à prendre en compte également la deuxième et la troisième méthode.
La méthode du filtre dans Google Analytics
Elle a l’avantage d’éviter de surcharger votre serveur : Utiliser les filtres de vue d’analytics en plus de votre vue Neutre que vous avez déjà configuré :
Créez une nouvelle Vue dans “Administration” -> “Vue” -> “Créer une vue” :
Ajoutez ensuite un filtre personnalisé pour le site référent :
Appliquez un nom de filtre (spammeurs par exemple), précisez le champ “sites référents, vérifiez ensuite la conséquence sur les derniers jours. Pour filtrer plusieurs sites, utilisez le “|” de séparation : exemple : semalt.com|election.interferencer.com|…
Dernière solution : les segments d’analytics
Nous avons pu voir comment jouer avec la segmentation de trafic sur Google Analytics. Faisons de même pour les spams referrer :
Indiquez ici la source du spam. Cela vous permet de vérifier les données antérieures sur votre filtre.
Voilà pour l’essentiel des solutions sachant que la pratique des spams referrals a encore de beaux jours devant elle.