En référencement naturel (SEO), le duplicate content est un phénomène pénalisant pour une page web dont les contenus sont identiques à d’autres pages sur internet.
Définition du duplicate content
Le duplicate content, ou contenu dupliqué, désigne le contenu d’une page web qui est reproduite à l’identique sur d’autres pages web. C’est le phénomène de copier/coller des contenus d’une page sur d’autres sites. Cela peut être une copie partielle d’un paragraphe, d’une phrase ou d’un simple plagiat.
Le phénomène de duplicate content est pénalisant en matière de référencement puisque les robots d’indexation des moteurs de recherche traquent les contenus similaires sur Internet.
Les types de duplicate content
C’est le moteur de recherche qui juge si tel ou tel contenu est une duplication. Il existe deux types de contenus dupliqués selon les robots d’indexation :
- Le duplicate content on-site : cela concerne les contenus dupliqués sur un même site mais dans des pages web et des URL différentes. L’exemple le plus proche est celui des sites e-commerces et des fiches-produit qui sont identiques à un détail près (couleur, taille, des produits).
- Le duplicate content hors site : cela concerne les contenus dupliqués sur des sites différents. Cela arrive souvent lorsqu’il y a une redistribution du flux RSS ou lorsqu’il s’agit tout simplement de plagiat.
Les enjeux du duplicate content
Les enjeux du duplicate content sont énormes sur le référencement naturel. Les pages jugées dupliquées par les robots d’indexation peuvent perdre leur positionnement dans les résultats de recherche ou les SERPs. Elles peuvent être déclassées de 10 fois moins que la position originale. La pénalisation la plus sévère est de se retrouver bannie de l’index.
Il arrive aussi que la page originale soit déclassée au profit de la page considérée comme « voleur de contenus », puisque ce dernier dispose d’un fort Page Rank. En effet, dans le cas où deux pages web ont des contenus similaires, celle qui dispose d’un important Page Rank sera mieux positionnée. La date d’apparition d’une page sur le web n’est pas vraiment tenue en compte par les robots d’indexation.
Le seul moyen d’éviter un duplicate content est de s’assurer que les contenus de ses pages web soient uniques. La création d’une URL unique joue également un énorme rôle dans le duplicate content. Si le duplicate content est volontaire, il est important de mettre en place la balise rel=canonical sur l’URL pour indiquer aux robots, la page web originale.