Imaginons la situation suivante : une page Web avec une photo de vous - nu - en train de nager avec des dauphins en mer du nord est indexée sur Google, et reste accessible à n'importe quel quidam, pour peu qu'il ait les bons mots clés pour la trouver. Comme l'eau était froide, cela ne vous a pas mis forcément en valeur. Vous prétextez alors une petite forme le jour où a été prise la photo, et surtout que c'est inadmissible, intolérable etc, etc, ...Votre mission, si vous l'acceptez, est de tout faire pour retirer cette page de l'index Google, cache compris, et d'éviter à l'avenir cette déconvenue.
Mon p'tit doigt me dit que vous avez tenté une recherche sur Google, et vous n'avez rien trouvé, du moins je l'espère
Alors comment enlever une page, et arrêter une indexation de tout ou partie d'un site ?
Compte tenu de la part énorme de Google (> 91 %) dans la sphère des moteurs, on s'intéressa particulièrement à ce dernier.
Il existe plusieurs actions à entreprendre, selon le type d'indexation (page HTML, ou non HTML), ou si l'on souhaite être sûr de ne plus l'être, on les empilera toutes.
Google webmasters tools
Lors de la création d'un site, c'est l'une des opérations à effectuer dans la todo list (en plus de l'outil de stats.) lors de la mise en ligne : attacher le site aux Google webmasters tools, ceci, avec pour principal objectif d' améliorer votre SEO.
Les Google Webmasters tools vous offriront un panel de fonctions très intéressantes, parmi lesquelles :
- avoir une image de ce que voit Google et savoir comment est indexé votre site,
- obenir un aperçu des mots clés qui amènent à votre site,
- avoir une liste exhaustive des 404 pour les corriger,
- injecter un sitemap pour une meilleure indexation,
- gérer votre robots.txt,
- et enfin, vous permettra le moment venu de demander la suppression d'une URL / lien indélicat de l'index Google, cela nécessitera qu'elle rendre l'erreur HTTP 404 (Outils / URL à supprimer). Cette action sera soumise à validation de la part de Google.
NB : prestataires, Google sort une nouvelle offre à destination de vos clients : Google Services for Websites
META
Dans le <head> de vos pages, vous aurez la possibilité d'ajouter une balise meta <meta name="robots" content="options"/>, destinés aux robots d'indexation.
Parmi les options possibles, on en aura 3 principales pour le cas qui nous intéresse :
- noindex : demande au robot de ne pas indexé la page,
- nofollow : ne suit pas les liens dans la page que tu es en train de crawler,
- noarchive : ne met pas en cache (Google) la page que tu as indexé,
- none : combine noindex et nofollow,
On aura alors par exemple : <meta name="robots" content="noindex, noarchive"/> pour éviter toute indexation et archivage dans le cache d'une page.
robots.txt
Se placera à la racine de votre site : permet de retirer tout ou partie du site à indexer : on s'intéressera à la directive Disallow, sur le répertoire racine, ou un répertoire ciblé, ou le lien profond de la page à ne pas/plus indexer (voir le site dédié à ce fichier).
Utiliser les Googles webmasters tools pour vérifier le dit fichier (Outils / Analyser).
X-Robots-Tag
Il se peut qu'il existe des pages / scripts qui renvoient des documents non HTML : fichiers PDF, images, flux RSS, ...dans ce cas, on ne peut utiliser la balise meta vue précédemment.
La page qui renvoie le contenu devra alors utiliser une entête HTTP particulière pour spécifier aux robotx des actions à entreprendre ou justement à ne pas entamer : X-Robots-Tag.
Comme pour la meta robots, on aura un ensemble d'ordre disponibles, les mêmes : noindex, noarchive, nofollow.
En C#, on utilisera AddHeader pour ajouter l'entête.
Après avoir appliqué toutes ces recettes, il ne reste plus qu'à attendre que Google veuille bien supprimer votre page de son index et de son cache, allumer un cierge, et compter jusqu'à 12 465...à l'envers.