On peut être fervent admirateur de ce que fait Google, l’utiliser au quotidien et même passer des accords de partenariat avec le géant des médias électroniques, on doit cependant pouvoir, comme à l’interne dans la firme, garder un esprit critique sur ses réalisations et dire tout haut ce qui manifestement pêche dans les cuisines de Larry et Sergey.
Or dans les casseroles de Google se mijotent souvent d’excellentes nouveautés, mais son produit phare, le moteur de recherches, reste depuis des années une soupe d’algorithmes relativement mauvaise, indigeste et peu convaincante. Le moteur de recherches de Google, c’est un peu comme un grossiste en informations : il fournit des tonnes de minerai brut duquel le client devra encore extraire lui-même en self service l’infométal réel, qui lui possède de la véritable valeur ajoutée.
“Google, la fin du chaos dans l’information, le champion de la pertinence, la proximité, le contexte en direct “, quelques qualificatifs parmi d’autres dont le géant glouton de Mountain View n’hésite pas à se parer dans sa page “Why to use Google”.
On y apprend aussi que “l’élément fondamental est PageRank, un système de classement des pages Web mis au point par les fondateurs de Google (Larry Page et Sergey Brin) à l’université de Stanford. Et pendant que plusieurs dizaines d’ingénieurs et de spécialistes consacrent leurs journées à améliorer les différents aspects de Google, PageRank reste la pierre angulaire des outils de recherche“.
S’il est au monde un secret bien gardé, c’est bien celui de l’algorithme de Google, dont toutefois on a quelques idées, par des indiscrétions mais aussi par l’analyse des résultats qu’il fournit. Et c’est bien sur l’aspect des résultats fournis que le moteur de recherche californien n’est pas à la hauteur.
S’il est le champion toutes catégories du nombre de pages indexées, il est aussi le champion toutes catégories du nombre de résultats de recherche non topiques et parfaitement inutiles. Sur le plan comportemental tout d’abord, la très grande majorité des internautes ne considèrent que la partie supérieure de la page de résultats d’une recherche et ne cliqueront jamais plus loin.
Or cette partie de résultats, selon la configuration employée, représente une dizaine de liens tout au plus. On s’aperçoit donc que les ingénieurs du fameux moteur privilégient la quantité des données fournies plutôt que la qualité et la pertinence des résultats. Et ceci dans un but tout simple, d’ailleurs partiellement démenti par l’usage, qui est de “faire de la page vue” en forçant le curieux à s’attarder sur un nombre de pages plus importants sur lesquelles figurent les fameuses publicités contextuelles.
Sur le plan du tri sélectif par pertinence, il existe manifestement deux types de recherche: la simple et la complexe. Mais que faire des 393′000 résultats que donne une recherche sur les “pommes vertes” ce lundi de Pâques ? rien, strictement rien. Mais au moins sur une recherche simple, on trouve une certaine pertinence dans les premiers résultats.
S’agissant d’une recherche plus “complexe”, portant aléatoirement sur le “concombre masqué”, on peut se demander sur les près de 90′000 résultats retournés quelle est la pertinence du masque hydratant au concombre présenté comme “résultat de recherche” par le moteur en page 19 des résultats …
Méthodologiquement, le moteur de recherche doit s’améliorer, et ceci au moins sur cinq points:
- cesser de confondre PageRank avec pertinence;
- permettre de mieux affiner les recherches en fonction de critères multiples;
- diminuer la quantité au profit de la qualité de l’information fournie;
- éliminer le contenu dupliqué avec beaucoup plus de vigueur
- utiliser plus intelligemment le comportement de l’internaute lors d’une recherche pour qu’il participe à l’amélioration de la topicité des résultats.
Sur ce dernier point on s’étonne que les ingénieurs qui sont si prompts à introduire différents cookies dont le fameux DART dans la gestion publicitaire n’aient pas encore trouvé que du minerai extrait en gros on peut tirer notamment grâce à une meilleure application sémantique et un algorithme renouvelé une véritable source d’informations sans parasites.
A croire presque que cette option de type de recherche relève d’une politique interne non dévoilée.
Dommage.
Ce billet provient du blog ouVertures.info, une autre lecture de l'info.Reproduction et diffusion autorisées exclusivement sur la base d'un accord préalable écrit.
Google: le moteur qui tourne carré
Vous pouvez lire aussi :