Dimanche dernier, j'ai été interpelé par un très bon article de Sylvain Richard de l'agence Axenet : La qualité d’un texte jugée par Google et par l’humain.
L'article explique comment Google pourrait juger la qualité d'un contenu, et j'aimerais revenir sur un point particulier de l'article qui me fera toujours autant bondir : l'utilisation supposée du taux de rebond.
Google connaît t-il le taux de rebond ?
Voici en substance ce que l'article disait sur ce point précis :
Un visiteur vient de la page de résultat de Google (SERP), reste 2 secondes sur votre page, puis retourne sur la SERP chercher la même chose ailleurs. Google ne verra probablement pas ce comportement comme un signal de qualité de votre contenu.
Je suis en accord avec tout le reste de l'article sauf ce passage. Je ne suis pas en désaccord avec la définition même qui est donnée mais plutôt sur l'association qui est faite avec le taux de rebond. On le verra plus loin mais ici je suis persuadé que Sylvain parlait plutôt du taux de retour des visiteurs. Cet amalgame avec le terme taux de rebond est fréquent. C'est d'ailleurs souvent le cas quand on parle des différents facteurs pris en compte dans le positionnement d'une page, et on retrouve cette erreur de terminologie sur des dizaines de sites différents.
Malheureusement, je suis persuadé qu'il est impossible pour Google de connaître cette donnée.
Petit rappel élémentaire : le taux de rebond est une variable qui mesure le taux de visites limitées à une seule page d'un site Internet : la page visitée est alors l'unique page d'entrée, et également l'unique page de sortie de l'utilisateur. Le taux de rebond est donc égal au taux de visites à une page d'un site Internet.
Le taux de rebond : c'est votre visiteur qui rebondit sur sa page d'arrivée
Google n'ayant pas de tracking installé sur les sites qu'il indexe, il est impossible pour lui de mesurer la navigation ni les actions des visiteurs sur le site (ne vous inquiétez pas, je vais vous parler très vite de Google Analytics).
Mais, car il y a toujours un mais, Google peut mesurer d'autres variables.
Le taux de retour du visiteur
Le moteur de recherche peut en effet mesurer d'autres éléments. Le premier, c'est le taux de retour d'un visiteur, et surtout le temps de retour entre le clic sur un résultat dans les SERP et le retour de l'utilisateur.
- Si ce temps est élevé, Google peut supposer que l'utilisateur a trouvé du contenu pertinent.
- Si ce temps est court, par exemple 1 à 10 secondes, le moteur de recherche pourrait supposer qu'il s'agit d'un résultat de piètre qualité.
Un mixeur qui revient rapidement sur Google envoie un signal de qualité au moteur de recherche
La question à se poser est donc de savoir si Google est paramétré pour détecter le retour d'un utilisateur. Prenons le cas de figure suivant :
- Un visiteur fait une recherche sur les moules en Tasmanie (un sujet qui déchaine les passions).
- Il clique sur le premier résultat, mais n'est pas satisfait (on ne parle que de tortues sur ce site).
- Le visiteur clique sur le bouton "Page précédente" de son navigateur, puis clique sur le deuxième résultat.
Après discussion avec Beunwa, il m'a confirmé le fait que l'on ne peut pas savoir si Google est configuré de manière a détecter ou non ce retour (du moins dans le cas où l'utilisateur n'effectue aucune autre action qu'un clic sur un autre résultat).
Si l'on partait du principe qu'il ne détecte pas ce retour, Google ne pourrait pas mesurer le retour de l'utilisateur et ce facteur de positionnement serait donc nul et non avenu. Une chance pour nous, Google nous a déjà donné la réponse : oui, il peut tracker le retour d'un utilisateur utilisant le bouton précédent de son navigateur, et il peut même modifier les résultats de sa requête quand il revient après un certain temps : Google confirms hidden benefit of authorship markup (lisez cet article, il est vraiment intéressant).
Donc oui, Google est tout à fait en mesure d'utiliser le taux de retour d'un utilisateur, et le temps que ce même utilisateur va mettre à revenir.
Google peut analyser vos recherches et le temps entre chacune d'elles
Cependant, un point pose problème si Google décidait d'utiliser cette donnée comme élément pénalisant : une recherche d'un internaute limitée à une seule page est parfois logique. Certaines recherches ne nécessitent en effet qu'une seule page à visiter et très peu de temps pour accomplir une action. C'est le cas par exemple pour récupérer l'adresse d'une entreprise, connaître la date d'anniversaire d'une personne connue ou encore trouver un numéro de téléphone. Dans ces cas de figure, un retour rapide à la recherche initiale ne veut pas dire qu'il n'a pas trouvé la bonne information.
D'ailleurs, Google peut mesurer la qualité d'un résultat de bien d'autres manières plus efficaces, comme avec le nombre de liens ou encore avec le nombre de votes et de partages sociaux d'une URL (même si je suis tout à fait d'accord que l'on peut facilement fausser ces deux points).
Une session de recherche ou une erreur de l'utilisateur ?
Là où cela devient intéressant et où cela se complique, c'est lorsqu'un ensemble de recherches est effectué dans une même session de navigation : durant un laps de temps plus ou moins court, l’utilisateur fait plusieurs recherches consécutives.
C'est le cas de figure par exemple lorsque l'utilisateur fait une requête trop vague par rapport au but recherché, ou alors lorsque le premier résultat donne une autre idée de recherche complémentaire au visiteur. Un article de SeoByTheSea parle en partie de cela : "How Google May Identify Navigational Queries and Resources" (merci à Laurent Bourelly pour le partage du lien).
On y explique que chaque requête ayant un objectif de "destination" (c'est-à-dire se rendre sur un site précis) ferait partie d'un ensemble de requêtes et que ces ensembles seraient associés à un ensemble de résultats. En se basant sur un brevet de Google, l'article suppose ensuite que le temps passé sur chaque résultat avant de revenir sur Google serait enregistré pour être utilisé par la suite pour modifier le positionnement des requêtes en question.
Google is watching you
Mais attention car parfois c'est l'utilisateur qui se trompe (l'erreur est humaine, c'est beau...).
Le visiteur peut tout simplement se tromper dans la formulation, arriver sur un résultat puis revenir en arrière pour corriger son erreur ou voir les autres résultats. Dans ces cas-là, la prise en compte du temps et du taux de retour de l'utilisateur serait faussé et pourrait pénaliser à tord des contenus de qualité : en d'autres termes, c'est le mixeur qui se mord la prise.
Et Google Analytics ?
Je sens déjà que certains d'entre vous meurent d’impatience de me sortir un "Bah bien sûr que Google peut mesurer le taux de rebond avec Google Analytics". Et je vais y répondre simplement : oui, et non...
- Google Analytics peut mesurer votre taux de rebond, mais il le fait mal (cf "Le taux de rebond est-il encore utile ?").
- Google Search (le moteur de recherche) ne peut pas mesurer ce taux, car ce n'est pas parce que la firme possède les deux outils qu'il peut forcément en croiser les données
Si j'affirme ce dernier point, c'est pour plusieurs raisons. Tout d'abord, Google Analytics est parfois utilisé sur des intranets ou sur des parties du web masquées et non-indexées : si Google utilisait ces données, l'index du moteur de recherche serait être bien plus important et moins pertinent.
Ensuite, il y a un bon taux de rebond et un mauvais taux de rebond (comme les chasseurs avec la Galinette Cendrée...). Une page peut avoir un temps de rebond de 80%, mais un temps moyen passé sur le page de 10 minutes. Et la page d'à côté peut avoir 20% de temps de rebond, pour un temps moyen de 15 secondes. Il faudrait donc que Google puisse forcément associer les deux s'il utilisait les données d'analytics.
De même, Google ne croise pas ces informations pour une autre raison très simple : c'est interdit dans les conditions générales de Google Analytics.
Google n'irait pas à l'encontre des conditions générales d'Analytics, non ?
Mais bon, avec Google, il faut se méfier... Voici l'extrait en question :
Confidentialité. Chacune des Parties s'interdit d'utiliser ou de divulguer des Informations Confidentielles de l'autre Partie sans l'accord préalable écrit de cette dernière, sauf aux fins de l'exécution de ses obligations dans le cadre du présent Contrat ou en cas d'exigence légale, réglementaire ou judiciaire. Source: Conditions générales de Google Analytics
Et pour terminer, l'outil de webanalytics de Google n'est pas mis en place sur tous les sites Internet du monde, loin de là ("je te vois référenceur Black Hat..."). Le fait de prendre en compte le taux de rebond sur un site mais pas sur le second pourrait provoquer un décalage injuste sur le positionnement, contrairement à d'autres décalages qui existent et qui sont logiques comme les votes sociaux et les liens).
Le taux de rebond ne sert à rien
Quand je dis qu'il ne sert à rien de manière isolée, je le pense vraiment. Le taux de rebond peut fausser énormément d'analyses quand on regarde les statistiques d'un site, et cela pour plusieurs raisons :
- Si vous avez un site en Ajax et que vous avez oublié de bien paramétrer Google Analytics, votre taux de rebond sera de 100% partout (Magique ^^).
- Toute action dans une page qui n'entraine pas le changement de l'URL sera comptée comme un rebond alors que vous avez peut-être atteint vos objectifs : formulaires, inscriptions, ...
- Le contenu de la page peut-être le but final de la visite : utiliser le formulaire de contact, trouver le numéro de téléphone, ...
Pour ce dernier point, tout le monde sait à quel point la sémantique est aussi éloignée de Google que le sucre l'est pour les diabétiques. Je vois mal comment Google pourrait alors définir que le taux de rebond de 50% de la page A est mauvais, mais que le taux de 50% de la page B est excellent...
PS : Ne le répétez pas, mais vous pouvez modifier le calcul du taux de rebond dans Analytics pour avoir une analyse plus fine de votre trafic. Mais chut, c'est un secret...
Comment Google utilise le taux de retour ?
Quand Google juge la qualité d'un contenu, il peut faire appel à des dizaines de critères pour y parvenir (comme l'explique Sylvain dans son article). Mais non, Google ne peut pas utiliser le taux de rebond : il peut cependant faire appel au taux de retour d'un visiteur et au temps pris par celui-ci pour revenir.
Ce n'est que mon avis, mais je pense que cela doit avoir un impact très faible dans l'ensemble de l'algorithme, car un temps doit être associé à la fois à :
- une requête précise (et non pas à ses variantes)
- une position des différents résultats cliqués (si le résultat change de place, ce retour enregistré pourrait ne plus être pertinent)
- un temps passé sur chacun de ces résultats