Définition de la duplication de contenus

Le duplicate content, alias contenu dupliqué en français, désigne du contenu similaire disponible sur plusieurs pages différentes, que ce soit sur un même site (on parle alors de duplicate content interne) ou deux voire plusieurs sites différents (on parle alors de duplicate content externe).

Pour qu’il y ait duplication de contenus avérée, le texte copié-collé doit être présent sur différentes URLs. Enfin, on considère qu’il y a contenu dupliqué dès lors que 2 des URLs impliquées, au minimum, sont indexées par les moteurs de recherche. En effet, si deux URLs affichent exactement le même contenu, mais que l’une des deux n’est pas indexée par Google par exemple, alors la duplication de contenus n’a aucun impact négatif sur le référencement naturel de votre site. Attention néanmoins à bien vérifier que cette URL non indexée soit bel et bien bloquée à l’indexation. Il existe pour cela différentes façons de gérer la duplication de contenus.

Les cas de duplication interne

  • La page d’accueil de votre site est indexée avec ses différentes versions d’URLs (/accueil.html, /index.php, /index.html, etc.) ;
  • Les URLs de votre site sont accessibles avec et sans WWW ;
  • Les URLs de votre site sont disponibles en HTTP et en HTTPS ;
  • Certaines URLs de votre site, contenant des paramètres, génèrent de la duplication de contenus (navigation à facettes, URLs de tris…) ;

Les cas de duplication externe

  • Un site malveillant pompe, partiellement ou totalement, vos contenus dans le but de vous nuire ;
  • Un aggrégateur de flux tel qu’une marketplace reprend le contenu de vos fiches produits ;
  • Dans le cas d’une refonte, la version préprod de votre site est indexée, générant des contenus en double ;
  • Vos contenus sont identiques entre les différentes versions linguistiques de votre site (.fr, .be, .ch, .ca…) et vous faites un mauvais usage de la balise hreflang 

Le duplicate content, un frein au référencement naturel de votre site ?

La réponse à cette question est plus complexe qu’on l’imagine. Sur le principe, la duplication de contenus, qu’elle soit interne ou externe, peut être néfaste au bon positionnement de votre site dans les moteurs de recherche. Bien évidemment, si l’on part du principe que l’objectif de Google est de mettre en avant et de favoriser les sites dont le contenu est unique, riche et répond à l’intention de recherche, alors on peut supposer que la duplication de contenus ne répond pas vraiment à ses attentes en matière de qualité ou de pertinence des résultats. D’ailleurs, Google annonce clairement sa vision du contenu dupliqué dans sa documentation : il explique que, dans le cas d’une volonté manifeste de manipuler ses classements ou de tromper ses utilisateurs, il peut prendre des mesures spécifiques qui vont du simple déclassement, de la simple baisse de positionnement d’un site dans son moteur de recherche jusqu’au retrait définitif d’une page ou d’un site dans son index. Dans les faits, il n’est cependant pas rare de voir encore un bon nombre de sites, qui abusent de cette pratique dite “spammy”, continuer à bien se positionner en première page de Google sur des requêtes stratégiques, voire concurrentielles. 

Exemples :

Dans cet exemple, le site meilleur-artisan.com ressort 1er sur la requête “plombier 91” et 2è sur la requête “plombier 94”.

Chez YATEO, nous pensons que Google n’a pas le même seuil de tolérance selon les domaines d’activités. Le secteur de la plomberie est à ce point concurrentiel, et les pratiques des nombreux acteurs tellement à la limite de l’acceptable, que la duplication de contenus semble ne pas être un facteur de déclassement ou de pénalité, si tant est que votre site possède un minimum d’autorité, de notoriété ou de popularité. D’ailleurs, dans l’exemple que nous avons pris, on observe que le site meilleur-artisan.com a tenté de proposer des contenus légèrement modifiés d’une page l’autre, à travers l’usage de synonymes, de tournures de phrases quelque peu distinctes en employant notamment les techniques du content spinning ou du texte à trous, afin de minimiser les dégâts en termes SEO. Dans d’autres thématiques, la duplication de contenus, même partielle, peut s’avérer contre-productive, inefficace, voire totalement nocive au bon positionnement de votre site. C’est pourquoi, nous vous conseillons véritablement de prendre le temps de rédiger des contenus uniques, originaux, SEO et SXO-friendly afin de favoriser l’expérience utilisateur.

Pourquoi le contenu dupliqué est à éviter ?

Le duplicate content pose deux problèmes principaux aux moteurs de recherche :

  • Ils ne savent pas quelle page indexer/désindexer ;
  • Ils ne savent pas quelle page positionner/déclasser ;

En règle générale, quand on laisse Google décider de ce qu’il doit faire sans lui donner d’indications précises, cela ne va pas dans le sens du propriétaire du site qui verra l’un de ses contenus s’indexer et se positionner certes, mais le positionnement de sa page sera moins bon que si Google avait rencontré un contenu unique.

La duplication de contenus pose également un autre souci : étant donné que votre contenu est accessible à divers endroits, à travers plusieurs URLs, la popularité de vos pages est diluée. En effet, au lieu de recevoir l’ensemble de vos backlinks vers une seule et même page, vous risquez de les recevoir sur vos différentes URLs et ainsi de diluer le PageRank de votre site.

Comment gérer la duplication de contenus ?

duplicate content

Pour régler des problématiques de contenus dupliqués, plusieurs solutions existent.

La balise rel=canonical

La balise canonical permet d’indiquer aux moteurs de recherche que la page qui fait figure de doublon doit être traitée comme une copie d’une page spécifique, appelée url canonique. À travers l’usage de la balise canonical, tous les acquis référentiels de la page “dupliquante” (backlinks, positionnement, PageRank, autorité…) sont alors transmis à la page dupliquée. Cette dernière devient alors la page de référence, elle seule sera indexée par les moteurs de recherche.

La Redirection 301

La redirection 301 ou redirection permanente est un excellent moyen de résoudre les problématiques de contenu dupliqué. En redirigeant la page doublon vers la page de contenu originale, on fait ainsi comprendre aux moteurs de recherche que la copie n’a plus vocation à exister et qu’elle doit être remplacée par son équivalente.

La redirection 301 permet de faire en sorte que, lorsque plusieurs pages sont fusionnées en une seule, non seulement elles cessent d’entrer en concurrence les unes avec les autres, mais elles permettent à celle qui reste dans l’index de bénéficier de l’historique et de l’ancienneté SEO de l’ensemble des autres pages.

Attention cependant à ne pas abuser des redirections 301. En cas d’utilisation excessive, le crawl de Google pourrait être fortement impacté.

La balise Meta Robots Noindex

Afin de traiter les problèmes de duplication de contenus, la balise meta Robots Noindex peut également être utilisée en l’associant à l’attribut follow. Il suffit pour cela de l’ajouter à l’entête HTML de chaque page individuelle qui doit être exclue de l’index d’un moteur de recherche.

La balise hreflang (pour les sites multilingues)

La balise hreflang permet d’indiquer les variantes linguistiques de vos différents contenus. Si votre contenu est similaire entre le .fr, le .be et le .ch et que la langue utilisée est le français, Google ne considérera pas que vos contenus sont dupliqués si vous avez correctement fait usage de cette balise. Dans le cas inverse, vous vous exposez à des sanctions.