Le duplicate content, définition, types et corrections possibles

Google attend de votre site une originalité de tous les instants. Cela suppose entre autres que la création de contenus répétés ne permet pas de faciliter tout simplement l’indexation dans le moteur de recherche. Petit retour sur le duplicate content ou contenu dupliqué en français, sujet à beaucoup de débats de la part des consultants en référencement.

Qu’est-ce que le contenu dupliqué ?

Le duplicate content est un phénomène très généralisé dans le web qui consiste en l’existence de contenus identiques au sein d’un même site ou au sein de plusieurs sites (noms de domaines différents). Google a mis en place des filtres dont Panda pour détecter la chose en favorisant de manière simple le contenu originel à celui copié. Toutefois, on constate différentes formes de duplicate content et notamment ce que l’on appelle le contenu dupliqué interne. Ce dernier est souvent le fruit de l’usage de CMS (WordPress, Joomla, Prestashop, Typo3, etc.) puisque de fait et visiblement, les menus, headers et pieds de pages sont souvent les mêmes pour ne citer que ces éléments. Un contenu dupliqué peut aussi être le résultat de mauvaises redirections du type : http:// vers https://www. ou même dans le cas d’un passage au https . Parfois, le phénomène se rencontre plus simplement lorsque vous avez deux urls identiques, Google les considérant comme identiques également en contenu.
Plus largement, le contenu dupliqué étant un phénomène courant et à moins de le faire sciemment dans un esprit spammeur, les risques de pénalité sont limités. Explications de Matt Cutts :

Types de contenus dupliqués

Si vos urls sont particulièrement lisibles pour les moteurs de recherche, c’est déjà un bon point Toutefois, il existe pleins de cas de figures qui sont (liste non exhaustive) :

Type de duplicate Remarques et risques SEO
Indexation du site avec et sans les WWW. Un grand classique particulièrement délicat qui plombe l’ensemble du site et qui, s’il n’engage pas a priori de pénalité au sens strict, limite l’indexation des pages. Faites un simple contrôle de l’affichage et pensez à rediriger votre site vers l’une ou l’autre des versions via votre fichier .htaccess. Très dangereux sur le plan de l’indexation et du référencement conséquent.
La redirection invisible d’un domaine Vous possédez deux noms de domaines (par exemple un .fr et un .com) et vous souhaitez rediriger le nomdedomaine.com vers le nomdedomaine.fr, pensez à faire en sorte que la redirection permanente se limite à l’affichage des pages sur le .fr. Très dangereux d’un point de vue SEO. Gardez ceci à l’esprit : un site original par nom de domaine.
Des sous-pages archives indexées Phénomène bien connu sur sur WordPress par exemple : vos sous-pages d’archives sont indexées et ne renvoient pas vers la première page. Exemple : https://monnomdedomaine.com/blog/categorie/page-2 est indexée avec le même titre, la même metadescription et le même contenu introductif que https://monomdedomaine.com/blo/categorie. Pensez dans ce cas à ne pas les indexer ou simplement à faire une rel=”canonical”. Pas de pénalité risquée.
Créer une version PDF indexée de la page Un document PDF s’indexe, oui, et on aime ça mais pas pour le même contenu de la page qui le propose !
Avoir une version http et https du site C’est étonnant le nombre de sites passés au https qui ne se rendent pas compte que leurs pages sont encore accessibles en http. Allez lire notre article et si vous disposez de WordPress, téléchargez notre plugin pour passer au https pour éviter ce phénomène de duplicate content. Notez que si vous n’êtes pas passé au https, il se peut que vous ayez tout de même des pages indexées de cette manière. Testez-le et vérifiez que votre hébergeur n’a pas mis un certificat SSL (c’est le cas chez OVH avec Let’s Encrypt). Risque SEO à rendre en compte.
Utiliser un même texte pour 2 ou mille pages internes Vous vendez des matelas et vous avez de nombreux produits avec une similarité tant dans les désignations techniques que dans l’usage. Le fait de répéter le même texte partout vous handicapera fortement et ne désindexera pas à proprement parler vos produits mais les mettra dans les pages de résultats supplémentaires. Autant dire que c’est inutile d’indexer ce type de contenu si vous n’avez pas retravaillé vos contenus.
Utiliser une même image pour plusieurs pages Même sanction à quelques détails près : une image a son url propre sur votre serveur et pour peu que vous la réemployez, vous ne favorisez pas le contenu de la page sur laquelle elle a été réemployée. De la même manière, nous vous conseillons de trouver un peu d’originalité dans vos choix d’images sur les banques d’images en ligne (les gratuites comme sur Pixabay par exemple sont sur-exploitées).
Recopier le contenu des pages produits d’un fournisseur pour un E-commerçants Ok, c’est parfois super tentant mais : 1) c’est interdit dans la majorité des cas 2) Expliquez-nous pourquoi Google favoriserait votre contenu dupliqué alors que le produit est similaire sur un autre site ?  Pour peu que ce soit sur des centaines de pages, bienvenue dans le spam ! Notez toutefois que le contenu dupliqué plus neuf peut être celui qui apparaîtra en premier. Attention donc à vous prémunir de ce genre de pratique. Demandez au moins l’ajout d’un lien source (en dofollow n’est-ce pas).
Indexer une version imprimable de sa page
Outre le fait que ce soit démodé, la version imprimable rentre dans les cas similaires à ceux des PDF dupliqués. Là encore, le risque est de voir une seule version choisie, bien entendu handicapée par l’autre contenu indexé.
Reprendre du contenu dans les extraits des articles sur les pages listes Vous avez un blog : vous disposez donc de pages listes comme les catégories du blog. Dans de nombreux cas, un bout de texte reprend le début de votre texte, c’est ce que l’on appelle les extraits ou excerpts. Pensez à changer le contenu pour éviter trop de duplicate content interne. Voir notre article sur la configuration possible des extraits sous WordPress.
Avoir deux urls pour la même page d’accueil Vous avez fait votre site from scratch et bien sûr vous gérez le menu à la mano : Faites attention de ne pas avoir deux urls pour le même contenu de la page d’accueil, indexées toutes deux du type : monnomdedomaine.fr puis monnomdedomaine.fr/index.php. La page d’accueil étant très forte surtout du point de vue du link juice, vous comprenez vote que c’est handicapant.
Avoir plusieurs titres identiques Très handicapant d’un point de vue SEO du fait que la balise title est le critère numéro du on-page. Pensez donc à utiliser la search console pour vérifier que le phénomène n’est pas présent. Google ne prendra en compte réellement que l’une des pages concernées.
Répéter les meta descriptions sur plusieurs pages Dans la même veine, et notamment dans le cas de grands E-commerces sur lesquels il est parfois difficile de faire toutes les optimisations d’un coup ou lorsque vous avez plusieurs gestionnaires pour le même site, la répétition de metadescriptions est un cas de duplicate un peu pénalisant. Là encore, observez les messages dans votre Google Search Console.
Avoir deux urls pour la même page d’accueil Vous avez fait votre site from scratch et bien sûr vous gérez le menu à la mano : Faites attention de ne pas avoir deux urls pour le même contenu de la page d’accueil, indexées toutes deux du type : monnomdedomaine.fr puis monnomdedomaine.fr/index.php. La page d’accueil étant très forte surtout du point de vue du link juice, vous comprenez vote que c’est handicapant.

Comment vérifier et limiter le duplicate content ?

Nous avons déjà évoqué l’usage de la balise rel=”canonical” qui permet d’indiquer aux moteurs de manière assez directe le fait que le contenu de votre page a un caractère unique. N’indexez pas sans elle et lisez ou relisez notre article. Mais évidemment, cela ne suffit pas d’autant que certains sites n’hésiteront pas à reprendre certains de vos contenus y compris pour des raisons de Negative SEO. Alors que faire ?

Dans un premier temps, vérifiez à l’aide d’outil dans quelle proportion vous générez du duplicate Content Il semble qu’il n’y ait pas de règle particulière ou véritablement définie pour ce taux mais des outils comme tout simplement la recherche Google de type “blablablabla” sur un paragraphe par exemple vous permettra de recenser l’ensemble des contenus traités comme similaires par el moteur. Gratuit, ou plutôt freemium, Copyscape est une solution qui vous donne également un score. voir pour le contenu interne également siteliner. 3 manières de voir la chose : le contenu commun, le contenu unique et le contenu dupliqué. Idéalement, réduisons le plus possible.

Dans un second temps, optimisez les contenus de vos sites et traitez le plus possible les éléments sensibles évoqués plus haut. Si le duplicate est généré de manière technique (urls, redirections, pages listes), ce sera prioritaire. Si le contenu dupliqué provient des textes, préférez la solution d’être en mesure de traiter un contenu unique avant toute indexation.

Le contenu dupliqué ne présente pas de risque en soi en termes de pénalité Google dans la mesure où vous n’avez pas de volonté malveillante ou spammy. Prenez donc le temps de faire tous ces ajustements au fur et à mesure. Si c’est un tiers qui est responsable, commencez par tenter de contacter le Webmaster avant toute autre action. Le dialogue est une sorte de règle dans le Web ; de nombreux différends se solutionnent de cette manière (n’oubliez pas que le fait de vous faire un lien source est juste super pour votre référencement), sinon tentez une approche dénonciatrice auprès de Google. rappelons également ici que le vol de contenu est contrevenant du point de vue légal.

Le cas du content spinning

Le content spinning permet de générer plusieurs textes à partir d’une création. On utilise pour cela des éditeurs en ligne ou des logiciels. Technique considérée à tort comme black Hat, cette méthode, si elle est particulièrement délicate et longue à mettre en place, peut vous permettre de gagner un précieux temps et réduire une partie du temps alloué à vos fiches produits. Alors pas tout de cette manière (!) mais un peu, pourquoi pas… d’autant qu’il est possible d’avoir un taux de similarité inférieur à 25%.

A propos de l'auteur(e)