SEO & référencement - Best Viewed With Googlebot

La mort du cloaking

Le cloaking sur IP, jusqu'alors indétectable, est désormais visible de tous via Google Analytics. Référencement rime décidément de plus en plus avec terriblement chiant.

C'est arnoweb2 qui m'a interpelé sur le forum de Webmaster-Hub. Google Analytics permet maintenant de voir le web avec les yeux de Googlebot. Nos pages cloakées, jusqu'alors réservées à Googlebot et peaufinées pour lui plaire, sont désormais accessibles à tous.

La méthode est très simple:

  • Dans Analytics, créez le profil du site web que vous voulez examiner,
  • Affichez les rapports du site ainsi créé (il n'est pas nécessaire que le marqueur ait été inséré dans les pages du site),
  • Choisissez la fonction Synthèse données/site...

... et voilà! Vous voyez la page telle que la voit Googlebot s'afficher dans l'iframe.

A priori, impossible de différencier une visite via Analytics d'un vrai crawl de Googlebot. L'user agent, l'adresse IP et l'hôte sont identiques, et comme Googlebot, Analytics se présente sans référant.

La seule pseudo-parade que j'ai trouvée pour tenter de cacher une page cloakée aux utilisateurs d'Analytics consiste à faire une redirection en javascript si la page est emprisonnée dans une frame. Mais ça reste du javascript...

Avec Analytics, Google semble finalement avoir réussi dans sa tentative de faire du référencement une activité réservée aux besogneux sans imagination. Désormais, pour m'amuser une peu, je m'adonnerai une activité beaucoup plus rock'n'roll: je regarderai "Des chiffres et des lettres" ;)

Wikio Wikio :: Scoop it! Scoopeo :: Fuzz it! Fuzz :: Tape Moi! TapeMoi :: Nuouz Ca! Nuouz :: Memes Ca! Memes
Digg it! Digg :: del.icio.us it! del.icio.us :: Blogmark it! Blogmarks :: Blogmark it! Bookeet :: Ajouter à mes favoris Technorati Technorati

Commentaires

Merci pour la marche à suivre !
Mais j'ai essayé avec www.pr10.darkseoteam.com , ça a pas l'air de fonctionner :-/

Je vois plusieurs pistes :

- les redirections basées sur la compréhension d'un langage particulier par les navigateurs web qui affichera la page (ex. javascript, Flash, voire les 2 en même temps).

- Puisque la page se trouve affichée à un utilisateur humain qui ne devrais pas pouvoir la visualiser. On peut jouer sur l'affichage visuel de la page pour maquer le contenu via CSS ou autre (ex. margin-left:-9000px)

J'ai essayé avec le New York Times ( tinyurl.com/3x28yq ) mais ça ne fonctionne pas non plus :-(

TOMHTML,
Le cas du New York times n'est sans doute pas représentatif, puisqu'il ne s'agit visiblement pas de cloaking classique. Sur le NYT, les articles sont dans un premier temps accessibles à tous (humains et bots) et donc indexés par google, puis après un certains temps, seulement aux abonnés. A aucun moment bots et humains ne sont différenciés.

Voir le commentaire de Philipp Lenssen (March 3, 2007 @ 2:23 pm) sur le blog de Matt Cutts: www.mattcutts.com/blog/a-...
>>Utills once said ( blog.outer-court.com/foru... ) that the NYT “fades out” pages, meaning they’re live for everyone for a while — human visitor, Googlebot (no cloaking) –, and then after a while they’re starting to redirect to a registration page.

Je n'ai pas d'explication quant à www.pr10.darkseoteam.com (j'obtiens un message d'erreur: "Impossible d'accéder à la page Web : www.pr10.darkseoteam.com/ "). La page est peut-être désormais interdite à Googlebot, mais plus probablement c'est la redirection qui est derrière pour Googlebot qui provoque ce message.

MagicYoyo,
L'idée de la CSS est intéressante. Mais comme avec ma pseudo soluce javascript, ça m'ennuie un peu de prendre la peine de faire du cloaking sur IP... et de prendre le risque de se faire pénaliser le jour où Google s'attaquera au spam par CSS. Autant spamer direct en CSS ;)

Pour tous,
J'ai mis en place un test que vous pouvez effectuer via analytics sur www.isabloodycloaker.com/

La page de test est www.isabloodycloaker.com/... (accessible depuis www.isabloodycloaker.com/ par le lien "Analytics decloaking test").

Essayez-là! en accès direct vous devriez voir s'afficher "Page for humans", par Analytics vous devriez voir "Page exclusively for Googlebot!"

Ca marche chez moi. Dites-moi si chez vous ça fonctionne ;)

Pas trop triste Jan ? :-)

Ca marche tres bien avec les pages des user de del.icio.us/ trop fort :)

Jan, j'ai fait un article à ce sujet sur Zorgloob.com ;-)
Ton test fonctionne sans aucun probleme

je me demande s'il n'y a pas un moyen de "hacker" l'interface de Google analytics pour acceder à la page sans passer par l'iframe...

ET J'AI TROUVéééé !!!!
img233.imageshack.us/img2...

TOMHTML,
Ma pseudo parade javascript n'était pas en place sur la page www.actulab.com/cloaking-...

Il est donc normal que tu ais pu la voir sans difficulté.

Je viens de la mettre en place. Tu peux réessayer;)

Je te réponds dans les commentaires de zorgloob ;-)

PS : je n'ai pas désactivé javascript et ça fonctionne toujours :)
voici ton code d'ailleurs :

<script type="text/javascript">
<!-- hide from non JavaScript Browsers
if (parent.frames.length > 0) {
window.top.location.href = "www.actulab.com/cloaking-...
}
// - stop hiding -->
</script>


allez, idée du jour : en vérifiant l'adresse de la page ;)
avec JS vérifie si tu as bien "actulab.com" dans l'URL ;)

Ba le JS ça ne sert pas à grand chose :p.

Il n'y a absolument aucun moyen de distinguer les robots d'analytics ?
Ils n'ont pas une plage IP spécifique (même si ça reste de l'IP Google), différente des crawlers ?

Salut Jan,

J'ai trouvé aussi comment sortir de la frame et voir ta page de concours cloakée par exemple, je donne la soluce ici si tu me donnes ton accord.

Paul

Le cloaking est une mauvaise chose pour les utilisateurs, donc je suis contre. Mais la, l'annonce de la mort de cloaking me semble hélas bien prématurée.

A part ça, le SEO chiant? Sans blague! Evidemment que c'est crétin comme activité, c'est pas une découverte, ça.

Comme Wullon il me semble que la solution est de determiner la plage d'IP utilisée par Google Analytics en espérant qu'elle est spécifique...
Pourquoi ne pas afficher l'IP du user courant dans un ensemble de pages tracées par Analytics ?
Ensuite il faudra collecter le/les IP affichés dans le pseudo-cache Analytics qui seront du coup les IP spécifiques Analytics...
Ca me parait presque trop simple comme solution ?...

eh les boys, évidemment qu'on peut facilement contourner la redirection javascript !

Jan précise bien que c'est une "pseudo-parade", c'est un langage client-side donc c'est crackable.

@Gilles: yapluka. Allez je commence... 66.249.66.242


:p

Gilles,
La plage d'IP utilisée par Google Analytics n'est a priori pas spécifique. J'ai vu analytics avec l'IP 66.249.72.44. Et avec cette même IP, j'ai vu le "vrai" Googlebot qui a crawlé et indexé des pages.

Black hat n'est pas de quelque chose de étrange...

Le cloaking, c'est tout de même le meilleur moyen de se faire bannir de Google si Google s'en aperçoit. Cela me paraît dangereux de proposer de telles solutions aux clients en matière de référencement. En effet, une fois un site banni, Google réclame de :

- dénoncer le responsable derrière de cloaking ;
- nettoyer le site incriminé de tout cloaking ;
- assurer Google que de telles tactiques ne seront plus employées à l'avenir ;
- attendre plusieurs mois que Google mette à jour son index de spammeurs bannis.

Cela me paraît cher payé pour gagner quelques places !

C'est pas trop tôt !

Je me suis toujours demandé pourquoi skyblog était en noarchive,
et ben voilà, toujours pas de réponse :)
ca doit etre au cas où les garsmin bafout les droits d'auteurs,
ca évite les traces en cas de suppression

Bon ben je suis bien vert :(
fini la rigolade et le mystère maintenant

Ca va forcément s'arreter,
google finira par faire valider la propriété des sites,
ca lui demandera quelques lignes de code, tout est en place pour

Ajouter un commentaire

Les commentaires pour ce billet sont fermés.