6 problèmes courants de Robots.txt et comment les résoudre

Publié le 16 février 2022 par Mycamer

Robots.txt est un outil utile et relativement puissant pour indiquer aux robots des moteurs de recherche comment vous souhaitez qu’ils explorent votre site Web.

Il n’est pas tout-puissant (en Les propres mots de Google“ce n’est pas un mécanisme pour garder une page Web hors de Google”), mais cela peut aider à éviter que votre site ou votre serveur ne soit surchargé par les requêtes des robots d’exploration.

Si ce bloc d’exploration est en place sur votre site, vous devez être certain qu’il est utilisé correctement.

Ceci est particulièrement important si vous utilisez des URL dynamiques ou d’autres méthodes qui génèrent un nombre théoriquement infini de pages.

Dans ce guide, nous examinerons certains des problèmes les plus courants avec le fichier robots.txt, l’impact qu’ils peuvent avoir sur votre site Web et votre présence dans les recherches, et comment résoudre ces problèmes si vous pensez qu’ils se sont produits.

Mais d’abord, regardons rapidement robots.txt et ses alternatives.

Qu’est-ce que Robots.txt ?

Robots.txt utilise un format de fichier texte brut et est placé dans le répertoire racine de votre site Web.

Il doit se trouver dans le répertoire le plus haut de votre site ; si vous le placez dans un sous-répertoire, les moteurs de recherche l’ignoreront tout simplement.

Malgré sa grande puissance, robots.txt est souvent un document relativement simple, et un fichier robots.txt de base peut être créé en quelques secondes à l’aide d’un éditeur comme Bloc-notes.

Il existe d’autres moyens d’atteindre certains des objectifs pour lesquels robots.txt est généralement utilisé.

Les pages individuelles peuvent inclure une balise meta robots dans le code de la page elle-même.

Vous pouvez également utiliser le En-tête HTTP X-Robots-Tag pour influencer comment (et si) le contenu est affiché dans les résultats de recherche.

Que peut faire Robots.txt ?

Robots.txt peut obtenir une variété de résultats dans une gamme de types de contenu différents :

Les pages Web peuvent être empêchées d’être explorées.

Ils peuvent toujours apparaître dans les résultats de recherche, mais n’auront pas de description textuelle. Le contenu non HTML de la page ne sera pas exploré non plus.

Les fichiers multimédias peuvent être empêchés d’apparaître dans les résultats de recherche Google.

Cela inclut les fichiers images, vidéo et audio.

Si le fichier est public, il “existera” toujours en ligne et pourra être consulté et lié, mais ce contenu privé ne s’affichera pas dans les recherches Google.

Les fichiers de ressources comme les scripts externes sans importance peuvent être bloqués.

Mais cela signifie que si Google explore une page qui nécessite le chargement de cette ressource, le robot Googlebot « verra » une version de la page comme si cette ressource n’existait pas, ce qui peut affecter l’indexation.

Vous ne pouvez pas utiliser robots.txt pour empêcher complètement une page Web d’apparaître dans les résultats de recherche de Google.

Pour y parvenir, vous devez utiliser une méthode alternative telle que l’ajout d’un noindex balise méta jusqu’en tête de page.

À quel point les erreurs Robots.txt sont-elles dangereuses ?

Une erreur dans robots.txt peut avoir des conséquences imprévues, mais ce n’est souvent pas la fin du monde.

La bonne nouvelle est qu’en corrigeant votre fichier robots.txt, vous pouvez récupérer rapidement et (généralement) intégralement toutes les erreurs.

Conseils de Google aux développeurs Web dit ceci au sujet des erreurs robots.txt :

“Les robots d’exploration Web sont généralement très flexibles et ne seront généralement pas influencés par des erreurs mineures dans le fichier robots.txt. En général, le pire qui puisse arriver est qu’une erreur [or] les directives non prises en charge seront ignorées.

Gardez à l’esprit que Google ne peut pas lire dans les pensées lors de l’interprétation d’un fichier robots.txt ; nous devons interpréter le fichier robots.txt que nous avons récupéré. Cela dit, si vous avez connaissance de problèmes dans votre fichier robots.txt, ils sont généralement faciles à résoudre. »

6 erreurs courantes de Robots.txt

  1. Robots.txt pas dans le répertoire racine.
  2. Mauvaise utilisation des caractères génériques.
  3. Aucun index dans Robots.txt.
  4. Scripts et feuilles de style bloqués.
  5. Aucune URL de sitemap.
  6. Accès aux sites de développement.

Si votre site Web se comporte étrangement dans les résultats de recherche, votre fichier robots.txt est un bon endroit pour rechercher les erreurs, les erreurs de syntaxe et les règles excessives.

Examinons plus en détail chacune des erreurs ci-dessus et voyons comment vous assurer que vous disposez d’un fichier robots.txt valide.

1. Robots.txt pas dans le répertoire racine

Les robots de recherche ne peuvent découvrir le fichier que s’il se trouve dans votre dossier racine.

C’est pourquoi il ne doit y avoir qu’une barre oblique entre le .com (ou le domaine équivalent) de votre site Web et le nom de fichier « robots.txt » dans l’URL de votre fichier robots.txt.

S’il contient un sous-dossier, votre fichier robots.txt n’est probablement pas visible pour les robots de recherche et votre site Web se comporte probablement comme s’il n’y avait aucun fichier robots.txt.

Pour résoudre ce problème, déplacez votre fichier robots.txt vers votre répertoire racine.

Il convient de noter que cela nécessitera que vous ayez un accès root à votre serveur.

Certains systèmes de gestion de contenu téléchargent des fichiers dans un sous-répertoire “media” (ou quelque chose de similaire) par défaut, vous devrez donc peut-être contourner cela pour placer votre fichier robots.txt au bon endroit.

2. Mauvaise utilisation des caractères génériques

Robots.txt prend en charge deux caractères génériques :

  • Astérisque * qui représente toutes les instances d’un personnage valide, comme un joker dans un jeu de cartes.
  • Signe dollar $ qui indique la fin d’une URL, vous permettant d’appliquer des règles uniquement à la dernière partie de l’URL, telle que l’extension du type de fichier.

Il est judicieux d’adopter une approche minimaliste de l’utilisation des caractères génériques, car ils ont le potentiel d’appliquer des restrictions à une partie beaucoup plus large de votre site Web.

Il est également relativement facile de finir par bloquer l’accès des robots à partir de l’ensemble de votre site avec un astérisque mal placé.

Pour résoudre un problème de caractère générique, vous devez localiser le caractère générique incorrect et le déplacer ou le supprimer afin que votre fichier robots.txt fonctionne comme prévu.

3. Aucun index dans Robots.txt

Celui-ci est plus courant dans les sites Web qui ont plus de quelques années.

Google a cessé d’obéir aux règles noindex dans les fichiers robots.txt depuis le 1er septembre 2019.

Si votre fichier robots.txt a été créé avant cette date ou ne contient pas d’instructions d’indexation, vous verrez probablement ces pages indexées dans les résultats de recherche de Google.

La solution à ce problème est d’implémenter une méthode alternative “noindex”.

Une option est la balise méta robots, que vous pouvez ajouter à l’en-tête de toute page Web que vous souhaitez empêcher Google d’indexer.

4. Scripts et feuilles de style bloqués

Il peut sembler logique de bloquer l’accès des crawlers aux JavaScripts externes et aux feuilles de style en cascade (CSS).

Cependant, rappelez-vous que Googlebot a besoin d’accéder aux fichiers CSS et JS pour “voir” correctement vos pages HTML et PHP.

Si vos pages se comportent bizarrement dans les résultats de Google, ou s’il semble que Google ne les voit pas correctement, vérifiez si vous bloquez l’accès du robot d’exploration aux fichiers externes requis.

Une solution simple consiste à supprimer la ligne de votre fichier robots.txt qui bloque l’accès.

Ou, si vous avez des fichiers à bloquer, insérez une exception qui restaure l’accès aux CSS et JavaScript nécessaires.

5. Aucune URL de sitemap

Il s’agit plus de SEO qu’autre chose.

Vous pouvez inclure l’URL de votre sitemap dans votre fichier robots.txt.

Parce que c’est le premier endroit que Googlebot regarde lorsqu’il explore votre site Web, cela donne au robot une longueur d’avance dans la connaissance de la structure et des pages principales de votre site.

Bien qu’il ne s’agisse pas strictement d’une erreur, car l’omission d’un sitemap ne devrait pas affecter négativement les fonctionnalités de base et l’apparence de votre site Web dans les résultats de recherche, cela vaut toujours la peine d’ajouter l’URL de votre sitemap à robots.txt si vous le souhaitez. donnez un coup de pouce à vos efforts de référencement.

6. Accès aux sites de développement

Bloquer les robots d’exploration de votre site Web en direct est un non-non, mais leur permettre également d’explorer et d’indexer vos pages qui sont encore en cours de développement.

Il est recommandé d’ajouter une instruction d’interdiction au fichier robots.txt d’un site Web en construction afin que le grand public ne le voie pas tant qu’il n’est pas terminé.

De même, il est crucial de supprimer l’instruction d’interdiction lorsque vous lancez un site Web terminé.

Oublier de supprimer cette ligne de robots.txt est l’une des erreurs les plus courantes chez les développeurs Web et peut empêcher l’exploration et l’indexation correctes de l’ensemble de votre site Web.

Si votre site de développement semble recevoir du trafic réel ou si votre site Web récemment lancé ne fonctionne pas du tout correctement dans la recherche, recherchez une règle d’interdiction d’agent utilisateur universel dans votre fichier robots.txt :

User-Agent: *


Disallow: /

Si vous voyez ceci alors que vous ne devriez pas (ou ne le voyez pas alors que vous devriez), apportez les modifications nécessaires à votre fichier robots.txt et vérifiez que l’apparence de recherche de votre site Web est mise à jour en conséquence.

Comment récupérer d’une erreur Robots.txt

Si une erreur dans robots.txt a des effets indésirables sur l’apparence de recherche de votre site Web, la première étape la plus importante consiste à corriger robots.txt et à vérifier que les nouvelles règles ont l’effet souhaité.

Quelques Outils d’exploration SEO peut vous aider pour que vous n’ayez pas à attendre que les moteurs de recherche explorent votre site.

Lorsque vous êtes sûr que robots.txt se comporte comme vous le souhaitez, vous pouvez essayer de faire réexplorer votre site dès que possible.

Des plateformes comme Console de recherche Google et Outils pour les webmasters Bing peut aider.

Soumettez un sitemap mis à jour et demandez une nouvelle exploration de toutes les pages qui ont été supprimées de manière inappropriée.

Malheureusement, vous êtes à la merci de Googlebot – il n’y a aucune garantie quant au temps qu’il faudra pour que les pages manquantes réapparaissent dans l’index de recherche Google.

Tout ce que vous pouvez faire est de prendre les mesures appropriées pour minimiser ce temps autant que possible et continuer à vérifier jusqu’à ce que le robots.txt corrigé soit implémenté par Googlebot.

Dernières pensées

En ce qui concerne les erreurs robots.txt, mieux vaut prévenir que guérir.

Sur un grand site Web générateur de revenus, un caractère générique égaré qui supprime l’intégralité de votre site Web de Google peut avoir un impact immédiat sur les revenus.

Les modifications apportées à robots.txt doivent être effectuées avec soin par des développeurs expérimentés, revérifiées et, le cas échéant, soumises à un deuxième avis.

Si possible, testez dans un éditeur sandbox avant de mettre en ligne sur votre serveur réel pour vous assurer d’éviter de créer par inadvertance des problèmes de disponibilité.

N’oubliez pas que lorsque le pire se produit, il est important de ne pas paniquer.

Diagnostiquez le problème, effectuez les réparations nécessaires sur robots.txt et renvoyez votre sitemap pour une nouvelle exploration.

Nous espérons que votre place dans les classements de recherche sera restaurée en quelques jours.

Plus de ressources:


Image en vedette : M-SUR/Shutterstock



— to www.searchenginejournal.com