Dans un billet publié, Google affirme avoir identifié un Trillion d’URLs uniques sur le web. C’est en fait plus, mais certaines pages ont des URLs multiples avec le même contenu.
Google note dans le quatrième paragraphe qu’ils ne référencent pas toutes ces pages. Google estime à environ 40 milliards le nombre de pages indexées.
Pourquoi n’indexent-ils donc pas toutes les pages qu’ils trouvent? Certaines sont des Spams; et en plus c’est extrêmement cher. Et le fait que Google indexe des sites d’infos ou des blogs et d’autres sites ultra dynamiques qui changent de contenu en permanence rend le processus encore plus coûteux. Il est donc indispensable d’effectuer une sélection sur ce qui est “juste” de référencer et ce qui ne l’est pas; c’est pourquoi une partie du web est “ignorée”.
Mais Google n’oublie pas de compléter: “Nous sommes fiers de présenter le moteur de recherches avec l’index le plus complet”
Michael Arrington (adaptation: Alain Eskenazi)