Cloaking temporaire et erreur 404

Cloaking temporel avec page d'erreur 404

Une réflexion sur le spam indexing et le cloaking avec une approche à court terme.

L'objectif du cloacking est de proposer une page différente aux robots des moteurs de recherche à celle qu'un visiteur classique peut lire à une même adresse.

Le but est bien sûr d'amener des visiteurs qui a priori ne sont pas intéressés par le contenu de votre site.

Toutes les informations à ce sujet sont disponibles sur la FAQ Google. Il est bien clair que google est contre le cloaking, quel qu'en soit la technique, et cherche à l'éradiquer.

Différentes solutions pour masquer des pages ou du contenu

Au niveau du texte

Utiliser les balises <noscript> ou du css pour cacher du texte aux internautes, est facilement détectable par google. Il ne vaut mieux pas trop essayer.

Au niveau du serveur

Le serveur est capable de proposer une page différente selon le User Agent, ou selon l'adresse ip du visiteur.

Faire un cloaking sur les ip de google peut être intéressant, mais laborieux car il faut maintenir une base de données des ips de google, ou controler en temps réel le whois de l'ip qui fait la requête. Tout ceci reste aisément contournable par google qui peut utiliser des ip non officielles. Par ailleur, des visiteurs (ou webmasters concurrents) eux-mêmes peuvent demander un blacklistage de votre site à l'aide d'un spam report à google.

Pour ceux que ça intéressent, voilà la principe en php.

<?php if(strpos($_SERVER["HTTP_USER_AGENT"],"google")!==false
     {
     echo 
"Texte si User Agent contient googlebot";
     }
?>

Et si vous souhaitez voir comment google bot voient certaines pages, pour par exemple répérer des webmasters qui utilisent ce genre cloaking ou tester le votre, voici un petit exemple de script php qui détecte le cloaking sur User Agent.


<?php
$url 
"http://www.pagequiutiliseducloacking.com";
$ch curl_init();
curl_setopt($chCURLOPT_USERAGENT"Googlebot/2.1 (+http://www.googlebot.com/bot.html)");
curl_setopt($chCURLOPT_URL$url);
curl_setopt($chCURLOPT_RETURNTRANSFER1);
$googlebotvoit curl_exec($ch);
curl_close($ch);

//la variable $googlebotvoit contient ce que le seveur renvoie à google

print_r($googlebotvoit);
?>

Il faut avoir CURL d'installé sur le serveur. Pour détecter le cloacking sur ip, c'est plus complexe. Mieux vaut faire un test en ajoutant sa propre ip dans la liste de ips de google.

La cache peut vous trahir...

Attention, il est toujours nécessaire d'ajouter la balise suivante dans vos pages cloakées pour ne pas qu'elles apparaissent dans le cache de google, et soient donc visibles par les visiteurs qui utilisent cette fonctionnalité.

<meta name="googlebot" content="noarchive" />
<meta name="robots" content="noarchive" />

Le cloaking temporel

Rien de très nouveau jusqu'à maintenant me direz-vous. Le cloaking classique se base sur une variable qui provient du visiteur pour choisir la version de la page.

A la place, on pourrait utiliser un autre paramètre, comme par exemple l'heure. Avant midi, une page A, et après une page B. Mais on se sait pas trop à quelle heure passe google bot, ni ses visiteurs.

Je vous propose donc une idée, basée sur le principe que le site change au cours du temps.

Phase 1 : générer des pages de mots clés

Le but est de générer des pages satellites en grand nombre, truffées de mots clés, ou bien de mots clés ciblés. Un exemple bien connu est une page avec 3 lignes de ce style:


<?php

$villes 
= array("Paris","Lyon","Lille","Stasbourg");
$types = array("Un studio","Une maison","Un appartement");

//on recupère les paramètres $ville et $type de l'url 

echo "A louer : $type"
echo 
"Offre exceptionnelle";
echo 
"$type à "rand(215) ." kilomètres de $ville, à saisir."
?>

On peut comme ça générer une centaine de page, pas plus pour ne pas énerver google.

Pour ceux qui n'auraient pas suivi, on obtient un bon paquet de pages avec un texte du genre:

A louer : Un studio
Offre exceptionelle
Un studio à 8 kilomètres de Strasbourg, à saisir.

A l'aide d'un bon url rewriting, il est possible d'avoir une url qui contient les mots clés ciblés, par exemple

http://www.monsiteimmobiliernaze.com/offres_speciales_cloaking/strasbourg/studio
Donner les pages à indexer à google

Par ailleur, on prépare un fichier sitemap en xml avec toutes ces adresses, que l'on va donner à google par l'intermédiare de Google Webmaster Tools.

Ces pages ne doivent pas être accessibles à partir d'une page du site, car les visiteurs n'ont rien à y faire.

Préparer la fausse page 404

On prépare une page 404 qui redirige vers les pages du site officielles vers lesquelles ont souhaitent amener les visiteurs. Celles-ci peut contenir du texte pompée chez les concurrents si ils savent bien écrire, puisqu'elle ne sera jamais lue par google. Une page 404 est en effet une page d'erreur qui signifie que le contenu n'existe plus.

Il est nécessaire d'ajouter en début de script:


<?php
header
("HTTP/1.0 404 Not Found");
?> 
Attendre l'indexation des pages

Comme tout bon chasseur de visiteurs, on attends que google indexe les pages sans intérêt générées à la volée. Généralement, google indexe tout ce qu'il trouve, et après quelques jours (disons 8) applique des filtres sur les contenus dupliqués et autres manipulations non souhaitées.

Mettre la page d'erreur 404 en ligne

Dès que la grande majorité des pages bidon est dans l'index, on peut soit modifier l'url rewriting pour qu'il pointe vers la fausse page 404, soit modifier le header de ces pages pour qu'elles renvoient un code d'erreur 404.

Cette page peut contenir tous les techniques interdites par google, entre autre une redirection javascript automatique. Les pages 404 ne seront pas crawlées dans le futur.

Récupérer les visiteurs

Des visiteurs vont cliquer pendant les 3 à 4 prochaines semaines sur des résultats de recherche dans google qui meneront vers votre page d'erreur 404 (qui peut rediriger vers n'importe quoi que vous voulez)

Ceci devrait être le cas jusqu'à ce que google enlève ces pages de l'index, ce qui met pas mal de temps.

Pourquoi ça s'appelle un cloaking temporel

Tout simplement parce le résultat est le même que celui d'un cloaking, mais qu'il dure seulement quelque temps. Et aussi parce que c'est moi qui écrit l'article et que je peux inventer ce que je veux comme nom.

Est-ce que ça marche?

Ca marche très bien pour des sites anciens, si le nombre de pages reste acceptable, environ moins de 200. En fait l'idée est de spammer l'index de google, comme certains l'ont fait il y a quelques années quand ça marchait encore, mais de passer ces pages en 404 avant que google prenne une action envers vous. Si elles sont en 404, il n'y a pas lieu qu'il réagisse mal. Au contraire, ne mettez surtout pas une redirection 200 (ok) sur toutes les pages de votre site, on serait en situation de duplicate content de façon assurée.

Le but de cet article reste principalement de proposer des idées un peu nouvelles dans le domaine. Si vous croyez être sur un site genre "gagner 15 000 à domicile sans rien faire grâce à Adsense", vous n'auriez pas du lire ça jusqu'au bout, ou bien aller faire des cours de chant prénatal pour femmes enceintes

.

Si vous avez des idées d'amélioration, ou vous voulez tout simplement convaincre les webmasters à ne pas faire de genre de choses, les commentaires sont ouverts!

Commentaires
Si vous avez appris des trucs, je vous remercie de cliquer sur le bouton google plus