SEO & référencement - Best Viewed With Googlebot

Comment contourner le filtre anti-duplicate content de Google

Le filtre anti-duplicate content de Google n'est pas l'arme absolue. Ce test vise à le démontrer.

Mise à part l'option qui permet de désactiver javascript dans votre navigateur, le filtre anti-duplicate content de Google est bien le pire cauchemar des webmasters de sites MFA.

Ce filtre est à Google ce que son sexe est à Rocco Siffredi: son joujou préféré, sa fierté, et le gage de sa toute-puissance. Un objet assez redoutable pour plonger les spamdexeurs amateurs dans un état de terreur comparable à celui d'une jeune actrice qui voit Rocco se glisser derrière elle au moment où le réalisateur crie "moteur".

Duplicate content == Index complémentaire

Les faits sont là: une page générée automatiquement qui ressemble un peu trop à l'original (celle dont elle s'est "inspirée") a de grandes chances de finir dans l'index complémentaire de Google, et de perdre ainsi toute visibilité.

Pourtant, ce filtre anti-duplicate content n'est pas aussi redoutable que Matt Cutts aimerait nous le faire croire. Il est même relativement facile à contourner, même avec une page 100% auto-générée.

Le test

Afin d'en juger, je mets en ligne un test public sur ce blog. La page de test est ici...

Le contenu de cette page répond à 2 contraintes primordiales pour un MFA:

  • il est généré automatiquement, en l'occurrence à partir du premier paragraphe de cette page de Wikipédia,
  • il reste lisible pour un visiteur humain.

Dans le but d'échapper au filtre de Google, la forme de ce contenu "volé" à Wikipédia a été modifiée:

  • il a été scindé en paragraphes,
  • l'ordre de ces paragraphes a été modifié,
  • une image a été insérée,
  • certaines parties du textes ont été remises en forme, sous la forme de listes, de citations, et de titre <h2> et <h3>
  • certains mots ont été mis en italique, en gras ou en souligné,
  • des liens ont été retirés et d'autres ajoutés sur certains mots.

Ces modifications touchent exclusivement la forme, et sont donc très simples à réaliser automatiquement. C'était, là aussi, une contrainte choisie pour ce test.

Il aurait bien sûr était possible de "mixer" du contenu extrait de plusieurs sources afin de multiplier les chances d'échapper au filtre anti-duplicate content de Google, mais encore une fois le choix délibéré était de garder ce test aussi simple que possible.

Participez!

Bien évidemment, comme toute page auto-générée, cette page de test a besoin de backlinks pour avoir une chance d'échapper au filtre de Google. Je mets donc en place quelques liens pour l'aider, et vous invite, si vous souhaitez participer au test, à en faire autant. Merci ;)

<a href="http://bvwg.actulab.net/31-test-anti-duplicate-content.seo">Test anti-duplicate content (ou tout autre texte)</a>

Les résultats

Rendez-vous sur ce blog pour suivre jour après jour les résultats du test.

Wikio Wikio :: Scoop it! Scoopeo :: Fuzz it! Fuzz :: Tape Moi! TapeMoi :: Nuouz Ca! Nuouz :: Memes Ca! Memes
Digg it! Digg :: del.icio.us it! del.icio.us :: Blogmark it! Blogmarks :: Blogmark it! Bookeet :: Ajouter à mes favoris Technorati Technorati

Commentaires

J'aime beaucoup te références et tes analogies !
Par contre je ne crois pas m'être encore retrouvé dans un tel état de terreur ;)

Salut Jan,
Merci pour cet article
t'utilise yacg ?


Another,
Non je n'utilise pas yacg, mais une moulinette faite maison.

toi tu as regardé le dernier rocco :D

tu crois vraiment au & pour détecter les pages dans l'index complémentaire ?

Salut Jan,

A mon avis, tu ne risques rien du tout, car la similarité est finalement assez faible, étant donné que seul le premier paragraphe a été reproduit. Selon cet outil : www.webconfs.com/similar-... il n'y a une similitude que de 6%...
Prenons un poème extremement célèbre comme l'Albatros de Baudelaire, on le trouve en plusieurs centaines d'exemplaires sur le web... heureusement que toutes ces pages ne sont pas dans l'index complémentaire.

On verra ce que donne l'expérience. Ensuite, peut-être oseras-tu (je sais que tu n'as peur de rien même pas de Rocco) re-essayer mais en copiant la page entière, tout en la bidouillant comme tu l'as fait pour inverser les paragraphes. Là déjà ce sera un peu plus chaud :) et en parlant de chaleur moi Rocco je ne vois pas ce qu'il a d'impressionnant lol (depuis Tchernobyl plus rien ne m'impressionne)

A bientôt !

Effectivement La Gerance, Google ayant fait disparaitre la mention "résultat complémentaire" de ses SERPS, il est devenu très difficile de savoir si une page se trouve ou pas dans l'index complémentaire.

Le & final semble avoir fonctionné un moment... mais ne fonctionne visiblement plus.

Il va donc devenir assez compliqué de suivre le résultat de ce test.

A cette heure, la page de test a bien été indexée. Il va falloir trouver des mots-clés sur lesquels elle se positionne pour pouvoir juger de sa santé. Des suggestions?

Survivante de Tchernobyl, j'ai certainement plus à craindre de Matt Cutts que de Rocco. Certes je ne connais pas l'ensemble de sa filmographie, mais d'après ce que j'en ai vu, a priori je ne risque rien ;)

Salut jan,

Heu.... heu... il n'existe plus l'index complémentaire de Google. Faut peut-être revoir ton test en fonction de ce paramètre ?

@+
Laurent

Salut Thick,
La mention "résultats complémentaires" a disparu des SERPS, mais je ne suis pas sûr pour autant que l'index complémentaire n'existe plus.

Il existe toujours des pages qui ne rankent pas dans Google par exemple pour cause de contenu dupliqué. Ces pages étaient estampillées "complémenatires", elles ne le sont plus, mais leur sort ne s'est pas amélioré pour autant.

La disparition du flag "complémentaire" rend le problème plus difficile à identifier. Le critère de jugement de mon test sera donc la capacité de ma page à se positionner sur certains mots-clés.

www.google.fr/search?q=du...
tout ce passe bien chez moi ;)

tu veux pas pousser le test? arriverais tu à générer wikipedia en entier comme ca? je pense pas.. le script serait trop compliqué et là c'est une seule page sur ton site alors que pour un mfa c'est la totale


Ah oui Jan tu as raison : ne plus voir quelque chose ne veut pas dire qu'il n'existe pas. C'est un peu comme ça que Dieu fait lol !
Il faudrait mettre en place un système de "potential rank" du genre tu check si une phrase entière ressort sur les SERPS, puis la moitié de la phrase, puis 4 mots, puis 3. Ensuite idem pour title en prenant la balise entière, puis de moins en moins de termes.
Enfin je ne sais pas, ... je pense tout haut

Moi j'utilise quelque chose de beaucoup plus simple : les résultats de MSN Live sur la requête en question ;)
La moulinette est automatique (puisqu'il n'y a que des bribes, contenant les mots clés), rapide à installer et à mettre en forme...

Pourquoi se casser la tête ?

@Tagada la Fraise
parce que ta technique est utilisée par tout le monde :D

J'aurais bien voulu bucher sur le sujet, entre autres decortiquer le fameux yacg, mais impossible de trouver une version qui marche !

Très intéressant.
moi je joue plus safe. du long terme
je me suis développé une tite BD access..
dans laquelle, pour un sujet donné, je n'ai qu'à taper la description, 2-3 mots clé, le texte (100 mot) et hop, je genere la page unique unique..
le format des pages est identique
mais le contenu généré bien différents...
a datem sur 70 pages générées, j'en ai 66 qui sortes dans Google... pis les autres, c'est probablement juste que google les a pas encore trouvé...
(moins d'une semaine qu'elles sont là...)

As-tu un résultat préliminaire à nous présenter ?

Apparement la page ne semble pas avoir de soucis, (si j'ai bien tout compris dans ton test !) donc ta conception "serais' bonne.

Celas dis présenté comme ca, le test n'est pas trés pointu. car déja dans ton cas on se demande qui copie qui ?, ta page est reprise par de nombreux sites. Un suivi sur un site serait plus parlant.

Mon idée serait que, eviter le duplicate de google ne devrait pas etre trop complexe sur le fond, une chose reste toujours la meme c'est la qualité du référencement général du site qui doit toujours faire le poids et la différence. Car google n'alignera pas des résultats assez similaires.

Enfin, je m'exprime mais je n'ai pas de certitude !

qu'en pensez vous ...

Salut Jan,

Que penses-tu du post de ce jeune ?
davideichholtzer.blog.lem...

Un bon tutorial pour site MFA ou bien ? ;)


Oui j'adore !!!!

mon truc préféré c'est :
Attribuez un nom de domaine différent à vos deux sites

nom de nom, pourquoi n'y avoir pas penser plus tot !

Je me moque mais mon :

str_replace("f","ƒ",$source);

n'est pas pire !



Bonjour Jan,

Je suis d'accord avec la survivante de Tchernobyl, récupérer quelques lignes de Wikipédia ce n'est heureusement pas considéré comme du Duplicate Content, sinon cela voudrait dire que Google refuse la citation... et que des Millions de pages seront considérées comme dupliqué :D

Ajouter un commentaire

Les commentaires pour ce billet sont fermés.