Si vous êtes nouveau ici, n'hesitez pas à vous abonner par email ou au feed RSS
Ah, les joies du référencement: un monde si particulier, avec ses codes, ses techniques, ses méthodes obscures, ses astuces du jour qui sont la solution à tous les maux…
Tout le monde sait à quoi sert le fichier robots.txt: il permet de donner des consignes aux moteurs. Par exemple, on peut dire à Google qu’il peut visiter tout le site mais refuser à Bing d’accéder à un dossier ou certaines pages.
Il est donc normal de mettre dans le robots.txt la liste des répertoires et pages qu’on ne veut pas que les moteurs lisent et encore moins indexent: fichiers d’admin, répertoire cgi-bin, dossiers de mise en cache, etc…
Et bien sûr les pages spécifiques qu’on veut cacher au monde.
Prenez le journal en ligne Rue 89. En 2008, il a publié un article au doux titre de « En onze mois, Sarkozy a produit autant de CO2 que 823 vaches» . Cet article n’est pas indexé par Google ou les autres moteurs parce qu’il est dans le robots.txt du site. (Vous trouverez facilement cet article ailleurs puisqu’il a été diffusé sur de nombreux autres sites). Par contre il est toujours présent sur Rue 89. Vous en voulez l’adresse ? Lisez le fichier robots.txt du site.
Prenez L’Internaute. Le site publie des critiques, des commentaires, des communiqués. Certains sont ensuite supprimés. Vous en voulez la liste ? Lisez le fichier robots.txt du site.
Prenez L’Express. L’hebdomadaire publie de nombreuses enquêtes mais il faut croire que certaines dérangent pour qu’elles se retrouvent interdites de lecture par les moteurs. Lisez le fichier robots.txt du site.
Dans tous les cas, si ces articles n’ont plus lieu d’être, pourquoi n’ont-ils pas été supprimés des sites en question ?
Le fichier robots.txt ne cache rien, il indique juste aux moteurs que vous préférez que ces pages ne soient pas indexées. Les moteurs n’ont aucune obligation d’en tenir compte (même si c’est une attente normale de la part des éditeurs).
Par ailleurs, si vous avez des choses à cacher, il est peut-être judicieux de ne pas les lister dans un fichier accessible publiquement par tous.