Contenu en double : Causes et solutions

Joost de Valk

Joost de Valk est le fondateur et Directeur des produits de Yoast. C’est un entrepreneur Internet, qui, à côté de la fondation Yoast, a investi et conseillé plusieurs startups. Son expertise principale est le développement de logiciels open source et le marketing numérique.

Les moteurs de recherche comme Google ont un problème – cela s’appelle du « contenu en double ». Le contenu en double signifie qu’un contenu similaire apparaît à plusieurs emplacements (URL) sur le Web et que les moteurs de recherche ne savent donc pas quelle URL afficher dans les résultats de recherche. Cela peut nuire au classement d’une page Web, et le problème ne fait qu’empirer lorsque les gens commencent à créer des liens vers les différentes versions du même contenu. Cet article vous aidera à comprendre les différentes causes du contenu en double, et à trouver la solution à chacune d’elles.

  • Qu’est-ce que le contenu en double ?
    • Illustrons cela avec un exemple
  • Causes du contenu en double
    • Malentendu sur le concept d’URL
    • ID de session
    • Paramètres d’URL utilisés pour le suivi et le tri
    • Grattoirs et syndication de contenu
    • Ordre des paramètres
    • Pagination des commentaires
    • Pages imprimables
    • WWW contre non-WWW
  • Solution conceptuelle: une URL ‘canonique’
  • Identification des problèmes de contenu en double
  • Solutions pratiques pour le contenu en double
    • Éviter le contenu en double
    • 301 Redirection du contenu en double
    • En utilisant des liens
    • Lien vers le contenu d’origine
  • Conclusion: le contenu en double est réparable et doit être corrigé

Qu’est-ce que le contenu en double?

Le contenu en double est un contenu disponible sur plusieurs URL sur le Web. Étant donné que plusieurs URL affichent le même contenu, les moteurs de recherche ne savent pas quelle URL répertorier plus haut dans les résultats de recherche. Par conséquent, ils peuvent classer les deux URL plus bas et donner la préférence à d’autres pages Web.

Dans cet article, nous nous concentrerons principalement sur les causes techniques du contenu en double et leurs solutions. Si vous souhaitez avoir une perspective plus large sur le contenu en double et savoir comment il se rapporte au contenu copié ou gratté ou même à la cannibalisation des mots clés, nous vous conseillons de lire cet article: Qu’est-ce que le contenu en double.

Illustrons cela avec un exemple

Le contenu en double peut être comparé à un carrefour où les panneaux de signalisation indiquent deux directions différentes pour la même destination: Quelle route faut-il prendre? Pour aggraver les choses, la destination finale est également différente, mais seulement légèrement. En tant que lecteur, cela ne vous dérange pas car vous obtenez le contenu pour lequel vous êtes venu, mais un moteur de recherche doit choisir la page à afficher dans les résultats de recherche car, bien sûr, il ne veut pas afficher le même contenu deux fois.

Disons que votre article sur ‘keyword x’ apparaît à et que le même contenu apparaît également à . Cette situation n’est pas fictive: elle se produit dans de nombreux systèmes de gestion de contenu modernes. Ensuite, disons que votre article a été repris par plusieurs blogueurs et que certains d’entre eux renvoient à la première URL, tandis que d’autres renvoient à la seconde. C’est à ce moment que le problème du moteur de recherche montre sa vraie nature: c’est votre problème. Le contenu en double est votre problème car ces liens promeuvent tous deux des URL différentes. S’ils étaient tous liés à la même URL, vos chances de vous classer pour le mot-clé x seraient plus élevées.

Si vous ne savez pas si vos classements souffrent de problèmes de contenu en double, ces outils de découverte de contenu en double vous aideront à le savoir!

Causes du contenu en double

Il existe des dizaines de raisons pour le contenu en double. La plupart sont techniques : ce n’est pas très souvent qu’un humain décide de mettre le même contenu à deux endroits différents sans préciser lequel est l’original. Sauf si vous avez cloné un article et l’avez publié par accident bien sûr. Mais sinon, cela ne semble pas naturel pour la plupart d’entre nous.

Il y a cependant de nombreuses raisons techniques et cela arrive principalement parce que les développeurs ne pensent pas comme un navigateur ou même un utilisateur, et encore moins comme une araignée de moteur de recherche – ils pensent comme un programmeur. Prenez cet article que nous avons mentionné plus tôt, qui apparaît sur et . Si vous demandez au développeur, il dira qu’il n’existe qu’une seule fois.

Malentendu sur le concept d’URL

Non, ce développeur n’est pas devenu fou, il parle simplement une langue différente. Un CMS alimentera probablement le site Web, et dans cette base de données, il n’y a qu’un seul article, mais le logiciel du site Web permet simplement de récupérer ce même article dans la base de données via plusieurs URL. En effet, aux yeux du développeur, l’identifiant unique de cet article est l’identifiant de cet article dans la base de données, et non l’URL. Mais pour le moteur de recherche, l’URL est l’identifiant unique d’un élément de contenu. Si vous expliquez cela à un développeur, il commencera à avoir le problème. Et après avoir lu cet article, vous pourrez même leur fournir une solution tout de suite.

ID de session

Vous souhaitez souvent garder une trace de vos visiteurs et leur permettre, par exemple, de stocker les articles qu’ils souhaitent acheter dans un panier. Pour ce faire, vous devez leur donner une session. »Une session est un bref historique de ce que le visiteur a fait sur votre site et peut contenir des éléments tels que les articles de son panier. Pour maintenir cette session lorsqu’un visiteur clique d’une page à l’autre, l’identifiant unique de cette session – appelé ID de session – doit être stocké quelque part. La solution la plus courante consiste à le faire avec des cookies. Cependant, les moteurs de recherche ne stockent généralement pas de cookies.

À ce stade, certains systèmes se contentent d’utiliser des identifiants de session dans l’URL. Cela signifie que chaque lien interne sur le site Web reçoit cet ID de session ajouté à son URL, et comme cet ID de session est unique à cette session, il crée une nouvelle URL et donc du contenu en double.

Paramètres d’URL utilisés pour le suivi et le tri

Une autre cause de contenu en double est l’utilisation de paramètres d’URL qui ne modifient pas le contenu d’une page, par exemple dans les liens de suivi. Vous voyez, pour un moteur de recherche, et ne sont pas la même URL. Ce dernier pourrait vous permettre de suivre de quelle source provenaient les personnes, mais il pourrait également vous rendre plus difficile de bien vous classer – un effet secondaire indésirable!

Cela ne concerne pas seulement les paramètres de suivi, bien sûr. Cela vaut pour chaque paramètre que vous pouvez ajouter à une URL qui ne modifie pas le contenu essentiel, que ce paramètre soit pour « modifier le tri sur un ensemble de produits » ou pour « afficher une autre barre latérale »: tous provoquent un contenu en double.

Grattoirs et syndication de contenu

La plupart des raisons du contenu en double sont soit la « faute » de vous ou de votre site Web. Parfois, cependant, d’autres sites Web utilisent votre contenu, avec ou sans votre consentement. Ils ne sont pas toujours liés à votre article d’origine, et donc le moteur de recherche ne l’obtient pas et doit faire face à une autre version du même article. Plus votre site devient populaire, plus vous obtiendrez de grattoirs, ce qui rendra ce problème de plus en plus important.

Ordre des paramètres

Une autre cause fréquente est qu’un CMS n’utilise pas de belles URL propres, mais plutôt des URL comme /?id=1&cat=2, où ID fait référence à l’article et cat fait référence à la catégorie. L’URL /?cat=2&id=1 donnera les mêmes résultats dans la plupart des systèmes de sites Web, mais ils sont complètement différents pour un moteur de recherche.

Pagination des commentaires

Dans mon bien-aimé WordPress, mais aussi dans certains autres systèmes, il existe une option pour paginer vos commentaires. Cela conduit à la duplication du contenu à travers l’URL de l’article et l’URL de l’article +/comment-page-1/, /comment-page-2/ etc.

Pages imprimables

Si votre système de gestion de contenu crée des pages imprimables et que vous créez un lien vers celles de vos pages d’articles, Google les trouvera généralement, sauf si vous les bloquez spécifiquement. Maintenant, demandez-vous: Quelle version voulez-vous que Google affiche? Celui avec vos annonces et votre contenu périphérique, ou celui qui ne montre que votre article?

WWW vs non-WWW

C’est l’un des plus anciens du livre, mais parfois les moteurs de recherche se trompent toujours: contenu en double WWW vs non-WWW, lorsque les deux versions de votre site sont accessibles. Une autre situation moins courante, mais que j’ai également vue, est le contenu en double HTTP vs HTTPS, où le même contenu est diffusé sur les deux.

Solution conceptuelle: une URL ‘canonique’

Comme nous l’avons déjà vu, le fait que plusieurs URL mènent au même contenu est un problème, mais il peut être résolu. Une personne qui travaille dans une publication sera normalement capable de vous dire assez facilement quelle devrait être l’URL « correcte » d’un certain article, mais parfois lorsque vous demandez à trois personnes au sein d’une même entreprise, vous obtiendrez trois réponses différentes

C’est un problème qui doit être résolu car, au final, il ne peut y en avoir qu’une (URL). Cette URL « correcte » pour un contenu est appelée URL canonique par les moteurs de recherche.

Note de côté ironique

Canonique est un terme issu de la tradition catholique romaine, où une liste de livres sacrés a été créée et acceptée comme authentique. Ils étaient connus comme les Évangiles canoniques du Nouveau Testament. L’ironie est qu’il a fallu à l’Église catholique romaine environ 300 ans et de nombreux combats pour élaborer cette liste canonique, et ils ont finalement choisi quatre versions de la même histoire

Identification des problèmes de contenu en double

Vous ne savez peut-être pas si vous avez un problème de contenu en double sur votre site ou avec votre contenu. L’utilisation de Google est l’un des moyens les plus simples de repérer le contenu en double.

Plusieurs opérateurs de recherche sont très utiles dans de tels cas. Si vous souhaitez trouver toutes les URL de votre site contenant votre article mot-clé X, vous devez taper la phrase de recherche suivante dans Google:

site:example.com intitle:"Keyword X"

Google vous montrera ensuite toutes les pages sur example.com qui contiennent ce mot-clé. Plus vous spécifiez que intitle fait partie de la requête, plus il est facile d’éliminer le contenu en double. Vous pouvez utiliser la même méthode pour identifier le contenu en double sur le Web. Disons que le titre complet de votre article était « Mot clé X – pourquoi c’est génial », vous rechercheriez:

intitle:"Keyword X - why it is awesome"

Et Google vous donnerait tous les sites qui correspondent à ce titre. Parfois, il vaut même la peine de rechercher une ou deux phrases complètes de votre article, car certains grattoirs peuvent changer le titre. Dans certains cas, lorsque vous effectuez une recherche comme celle-ci, Google peut afficher un avis comme celui-ci sur la dernière page de résultats:

C’est un signe que Google « dédupe » déjà les résultats. Ce n’est toujours pas bon, il vaut donc la peine de cliquer sur le lien et de regarder tous les autres résultats pour voir si vous pouvez en corriger certains.

En savoir plus: BRICOLAGE: vérification du contenu en double « 

Solutions pratiques pour le contenu en double

Une fois que vous avez décidé quelle URL est l’URL canonique de votre contenu, vous devez lancer un processus de canonisation (oui, je sais, essayez de le dire trois fois à haute voix rapidement). Cela signifie que nous devons informer les moteurs de recherche de la version canonique d’une page et les laisser la trouver dès que possible. Il existe quatre méthodes pour résoudre le problème, par ordre de préférence:

  1. Ne pas créer de contenu en double
  2. Rediriger le contenu en double vers l’URL canonique
  3. Ajout d’un élément de lien canonique à la page en double
  4. Ajout d’un lien HTML de la page en double à la page canonique

Éviter le contenu en double

Certaines des causes ci-dessus pour le contenu en double ont des corrections très simples:

  • Y a-t-il des identifiants de session dans vos URL ?
    Ceux-ci peuvent souvent être simplement désactivés dans les paramètres de votre système.
  • Avez-vous des pages imprimables en double?
    Ceux-ci sont complètement inutiles: vous devez simplement utiliser une feuille de style d’impression.
  • Utilisez-vous la pagination des commentaires dans WordPress?
    Il vous suffit de désactiver cette fonctionnalité (sous paramètres « discussion) sur 99% des sites.
  • Vos paramètres sont-ils dans un ordre différent ?
    Dites à votre programmeur de créer un script pour toujours mettre les paramètres dans le même ordre (on parle souvent de fabrique d’URL).
  • Y a-t-il des problèmes de suivi des liens ?
    Dans la plupart des cas, vous pouvez utiliser un suivi de campagne basé sur des balises de hachage au lieu d’un suivi de campagne basé sur des paramètres.
  • Avez-vous des problèmes WWW par rapport à des problèmes non WWW?
    Choisissez-en un et collez-le en redirigeant l’un vers l’autre. Vous pouvez également définir une préférence dans Google Webmaster Tools, mais vous devrez revendiquer les deux versions du nom de domaine.

Si votre problème n’est pas si facile à résoudre, cela pourrait toujours valoir la peine de faire l’effort. L’objectif devrait être d’empêcher le contenu en double d’apparaître complètement, car c’est de loin la meilleure solution au problème.

301 Redirection du contenu en double

Dans certains cas, il est impossible d’empêcher entièrement le système que vous utilisez de créer de mauvaises URL pour le contenu, mais il est parfois possible de les rediriger. Si ce n’est pas logique pour vous (ce que je peux comprendre), gardez-le à l’esprit lorsque vous parlez à vos développeurs. Si vous vous débarrassez de certains problèmes de contenu en double, assurez-vous de rediriger toutes les anciennes URL de contenu en double vers les URL canoniques appropriées.

Utilisation de liens

Parfois, vous ne voulez pas ou ne pouvez pas vous débarrasser d’une version en double d’un article, même lorsque vous savez que c’est la mauvaise URL. Pour résoudre ce problème particulier, les moteurs de recherche ont introduit l’élément lien canonique. Il est placé dans la section < head > de votre site, et il ressemble à ceci:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

Dans la section href du lien canonique, vous placez l’URL canonique correcte pour votre article. Lorsqu’un moteur de recherche prenant en charge canonical trouve cet élément de lien, il effectue une redirection soft 301, transférant la majeure partie de la valeur de lien recueillie par cette page vers votre page canonical.

Ce processus est cependant un peu plus lent que la redirection 301, donc si vous pouvez simplement faire une redirection 301, ce serait préférable, comme l’a mentionné John Mueller de Google.

Continuez à lire: rel =canonical * Qu’est-ce que c’est et comment (ne pas) l’utiliser « 

Lien vers le contenu original

Si vous ne pouvez pas faire tout ce qui précède, peut-être parce que vous ne contrôlez pas la section <head> du site sur lequel votre contenu apparaît, ajouter un lien vers l’article original en haut ou en dessous de l’article est toujours une bonne idée. Vous voudrez peut-être le faire dans votre flux RSS en ajoutant un lien vers l’article qu’il contient. Certains grattoirs filtreront ce lien, mais d’autres pourraient le laisser. Si Google rencontre plusieurs liens pointant vers votre article original, il comprendra assez tôt qu’il s’agit de la version canonique réelle.

Conclusion: le contenu en double est réparable et doit être corrigé

Le contenu en double se produit partout. Je n’ai pas encore rencontré un site de plus de 1 000 pages qui n’a pas au moins un petit problème de contenu en double. C’est quelque chose que vous devez constamment surveiller, mais il est réparable et les récompenses peuvent être abondantes. Votre contenu de qualité pourrait grimper dans les classements, simplement en se débarrassant du contenu en double de votre site!

Lisez la suite: Rel=canonical: Le guide ultime  »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

More: