Le Duplicate Content interne est l’ennemi de bien des référenceurs. Ce contenu similaire dispersé sur votre propre site fait perdre du temps de crawl que le bot vous accorde chaque jour. Je vous propose d’aborder dans cet article un type de duplicate content un peu particulier qu’on voit cependant trop souvent lors des audits : le duplicate content à 100% d’un même site sur plusieurs domaines et sous-domaines. Explications.
Duplicate Content interne sur domaines et sous-domaines : kesako
De manière générale, surtout sur des sites e-commerce, je rencontre plusieurs types de contenus dupliqués internes :
- Une seule et même page qui est accessible depuis plusieurs URL. Là dessus Magento est un champion
- Une page listant des produits ou articles et qui permet le tri (par exemple la page liste 10 produits que l’on peut classer par prix, ordre alphabétique, etc.)
- Une page produit avec un produit épuisé et une URL propre qui est la copie conforme (sauf la disponibilité) du même produit mais qui a une référence différente (suite, par exemple à une erreur dans le catalogue produit) et qui lui est en stock
- Un seul et même site entièrement accessible depuis plusieurs domaines et sous-domaines
Le but de cet article est de traiter ce dernier point. J’ai eu l’idée de l’écrire quand j’ai découvert, lors d’un audit récent, que le site d’un tout nouveau client à l’agence était accessible, visité et référencé sur :
- Trois domaines de type IP : http://255.255.255.255/
- Deux domaines classiques : http://www.monsite.com/ et http://www.ouijaiunsite.fr/
- Chacun étant accessible avec et sans « www »
- Et sur plusieurs sous-domaines : http://css.monsite.com/ et http://media.monsite.com/
Ca en fait du duplicate. En l’occurence, 40 000 pages totalement dupliquées 11 fois… C’est bien sur un cas extrême mais vous devriez tout de même vérifier vos sites, au cas où.
Trouver les domaines & sous-domaines parasites
Google, d’où qu’il est mon duplicate ?
Vous pourriez vous contenter de demander à Google lui même de vous donner tous les sous-domaines indexés pour un domaine. Un simple « site:monsite.com -inurl:www » vous permettrait de trouver les sous-domaines indexés pour votre site. Il suffirait alors de faire le tri pour voir si tout est normal.
Si par exemple votre boutique a pour domaine http://www.maboutique.com/ et que vous avez un blog sur http://blog.maboutique.com/, modifiez la requête pour ne faire ressortir que le reste, ce qui donne : « site:maboutique.com -inurl:www -inurl:blog ».
Le gros défaut de cette méthode est qu’elle ne révèle que les sites dupliqués sur sous-domaine et non sur d’autres domaines. Elle est donc à compléter avec la méthode Google Analytics.
Google Analytics : affichage des noms d’hôtes
Il y a beaucoup de techniques possibles mais il y en a une qui est vraiment rapide et facile à utiliser : Google Analytics.
Dans Google Analytics, rendez-vous sur les statistiques de votre site puis dans : Audience > Technologie > Réseau. Par défaut le rapport affiche les « Fournisseurs de services » ou FAI. Pour afficher les domaines et sous-domaines, cliquez sur « Nom d’hôtes » dans « Variable principale » et vous voici avec une liste des domaines et sous-domaines qui enregistrent du trafic avec le tag Analytics de votre site.
On trouve souvent plusieurs types de chose, de la plus banale (le site avec et sans « www ») à la plus cocasse : les environnements de preprod, recette ou staging, l’adresse IP d’un ou des serveurs hébergeant le site, les sous-domaine créés pour paralléliser les chargements de média, etc.
L’avantage de cette technique est d’être très rapide à utiliser et surtout de pouvoir relever des sites dupliqués sur des domaines qui n’ont rien à voir avec le domaine principal.
Régler le problème : rediriger ou désindexer les sites parasites
Mettre en place les redirections d’URL
Autant je mesure toujours l’intérêt de faire des redirections d’URL, autant là, vu la simplicité de la chose, je préfère ne pas me poser de questions. En effet, vu que nous sommes sur de la duplication de site, les redirections seront très faciles à mettre en place (sauf barrière technique) : il suffit de rediriger les URL exactes des mauvais domaines sur le bon.
En .htaccess, ça donne ceci, et il suffit de le mettre dans le htaccess du site à conserver (vu que tout pointe au même endroit, sauf environnements recette/staging/dev) :
RewriteEngine on RewriteCond %{HTTP_HOST} ^mondomainekipu.com$ RewriteRule ^(.*) http://www.monsite.com/$1 [QSA,L,R=301]
Et voilà : toutes les requêtes faites sur le domaine mondomainekipu.com (quel que soit le sous-domaine) redirigeront en 301 vers la même URL mais sur le domaine http://www.monsite.com/
Désindexer les sites parasites
Procédure de désindexation
Parfois on ne peut pas, ou on ne veut pas rediriger en 301. Dans ce cas, nous allons désindexer les domaines et sous-domaines parasites. Pour cela, rendez-vous dans Google Webmaster Tools et crééz autant de nouveaux sites qu’il y a de sites et sous-domaines à désindexer. Vu que tout pointe au même endroit, la validation par fichier à uplodader ou par compte Google Analytics fonctionnera sans problèmes.
Il n’y a alors plus qu’à se rendre dans Optimisation > URL à supprimer et de demander à supprimer totalement le répertoire /.
ATTENTION : si votre site est accessible avec et sans www, ne créez surtout pas un compte pour la version sans « www » car une demande de désindexation frapperait la totalité des sous domaines ! Croyez moi, c’est du vécu…
Comment bloquer avec un robots.txt les domaines pointant vers une même racine ?
Si vous avez choisi de rediriger les URL, il n’est pas très malin de les bloquer ensuite par un robots.txt car Google ne les crawlera tout simplement pas. Si vous avez choisi de désindexer les domaines, vous pouvez par contre avoir envie de les bloquer à Google pour qu’il ne les réindexe pas.
On pourrait dire que c’est un faux problème car il vaut mieux corriger en amont en supprimant les liens qui pointent vers ces domaines parasites, mais on n’est jamais vraiment maître de son linking naturel. Si par exemple quelqu’un vous a mis un lien vers votre domaine parasite sur un forum, il sera difficile de le faire enlever.
Alors comment faire pour que le robots.txt qui est commun à tout ces domaines s’applique à certains et pas à d’autres ? Utilisez Apache ! Une simple règle de réécriture suffira :
RewriteEngine on RewriteCond %{HTTP_HOST} ^mondomainekipu.com$ RewriteRule /robots.txt http://www.monsite.com/robots-mondomainekipu.txt [L]
Facile non ? ;o)
Abonnez-vous au flux flux RSS | You can leave a response, or trackback from your own site.
Très bon article bien exhaustive sur un problème récurrent pour le référencement. La plupart des blogs qui parlent du sujet se contente de parler du site sans le « www », mais cet article pousse le sujet un cran au dessus. Sinon une autre technique pour trouver du duplicate content sans forcément avoir accès à Google Analytics consiste à chercher sur Google une phrase exacte et assez unique présente sur la page d’accueil ou dans le footer (par exemple). Ça ne marche pas à tous les coup, mais ça peut révéler des surprises.
Je rajouterai juste une autre piste pour la détection de « domaine interne » qui duplique votre site. Regarder les sites sur la même IP, cependant cela ne fonctionne pas pour des sites qui sont sur des serveurs mutualisés.
Merci pour ce super article, notamment la désindexation d’un sous domaine complet.
J’attends voir les résultats…