rel=canonical : la balise solution anti-duplication Web ?

Lorsque l’on développe un site Web, on est très tenté de mettre beaucoup de contenu et notamment du contenu texte car “si je veux être référencé, il faut que mon site dispose de contenu”. Et vous avez raison car à quoi sert-il d’avoir un site Web si c’est pour ne pas apparaître dans les moteurs de recherche ? Alors OUI, c’est la règle du contenu qui est tant développée un peu partout par les référenceurs de site ; Cependant, il existe un risque de duplication de contenu. Les balises “canonical” sont un remède que nous allons détailler.

La duplication de contenu, c’est quoi ?

La duplication de contenu peut prendre plusieurs formes. Selon Google, cette duplication de contenu peut exister avec le cas de deux sites différents (donc deux URL différentes). C’est très fréquent lorsque vous mettez en place un site d’actualités par exemple. Une actualité est reprise par un autre site, puis un autre etc. On retrouve donc de nombreuses similarités entre les différentes pages malgré des URL différentes.

Le problème est très fréquent sur les blogs de type WordPress et surtout les sites e-commerce. Pour ces derniers par exemple, un même article ou produit peut être trouvé via des URL dynamiques (catégoriser ses produits oblige à utiliser la balise rel=canonical pour chacun des produits).

On retrouve des problèmes similaires avec les annuaires, ce qui démontre bien que l’usage abusif d’annuaires est à proscrire pour un site Web.

Vous pouvez indexer un site avec ou sans www ; c’est aussi une question de duplicate content, avoir plusieurs URL pour une page d’accueil également, ce qui pose la question des redirections.

Modifier ses URL peut aussi poser problème (les erreurs 404) mais aussi le fait de ne pas spécifier le changement d’adresse. On utilise dès lors la redirection 301 pour ne pas pénaliser le référencement.

Le duplicate content apparaît dès lors qu’un taux important de similarité apparaît entre deux pages. Sur ce taux, nous n’avons pas de précision. Quoiqu’il en soit, la balise rel=canonical est l’un des remèdes à ce problème

Utiliser la balise rel=canonical

Cette balise est à insérer dans la section <head> du code html, le plus tôt possible afin d’être bien prise en compte par l’algorithme Panda.  Évidemment, elle est valable pour les pages indexées et est inutile sur les noindex. Elle est en revanche indispensable sur les sites travaillés en multilingue. Voici son aspect classique :

[pastacode lang=”markup” manual=”%3Chead%3E%0A%3Clink%20rel%3D%22canonical%22%20href%3D%22https%3A%2F%2Ffacemweb.com%22%20%2F%3E%0A%3C%2Fhead%3E” message=”Exemple simple de Balise rel canonical” highlight=”” provider=”manual”/]

Il est primordial de vérifier que la page de contenu existe (pas d’erreur 404 par exemple), ce qui pourrait se produire si vous modifiez l’URL de votre page 😉

Il s’agit d’une balise dans laquelle on indique une URL absolue, à savoir une url reprenant tout le lien et donc précise, quel que soit l’emplacement du document source. Par exemple : http ://mondomaine.com/ma-page.html.

On évite d’utiliser la balise dans des pages paginées (c’est-à-dire des pages 2,3,4, etc. qui renvoient vers une page 1 alors qu’elle ont des contenus différents) et enfin ne mettez qu’une seule balise rel=canonical par page.

Utiliser le rel=canonical sous WordPress

Pour les solutions développées sous WordPress, on utilisera volontiers le plugin développé par Yoast. L’url canonique se trouve dans l’onglet avancé de Yoast SEO Plugin, (indiquer l’url absolue):rel=canonical wordpressPour finir sur l’utilité de cette balise rel canonical en pratique

Récemment, nous avons subi la copie presque intégrale de certains contenus. La technique Black Hat est simple : se focaliser sur le flux RSS et récupérer les articles pour les publier sur son propre CMS. On adore :'(

En grande partie, les contenus (nous ne faisons que peu d’automation, et oui !) ont été publiés sur de nombreux réseaux sociaux comme Twitter et autres accélérateurs.

L’indexation de ces contenus d’un autre site s’est faite évidemment très rapidement. Dixit Search Console pour se dépêcher de mettre ça y compris comme Google News. Fort heureusement pour le “piqueur de contenu”, un lien desoptimisé pointe sur notre site en lien profond, histoire de rendre à la limite légal cette récupération parfois à demi-partielle. Hum, Sans cette balise, quid du positionnement des articles que nous réalisons ?

Si ce n’est pas l’assurance tous risques, c’est vraiment très utile !

A propos de l'auteur(e)

2 Commentaires

  1. Astuces Webmaster 27 mars 2017
  2. Xavier Deloffre 27 mars 2017