Le saviez-vous ? On a écrit plus de cinq cents livres sur Internet avant 1950, Hamlet parle d’antiquités et d’objets de collection et Madame Bovary est un roman de Henry James… Quand la Grande Bibliothèque numérique rêvée par Google vire au cauchemar pour les universitaires tentés d’en faire un outil de recherche.
Le projet Google Books est en passe de devenir la plus grande bibliothèque numérique du monde – que les tribunaux et le ministère américain de la Justice avalisent ou non la proposition d’accord présentée par la firme (1). Ce pourrait bien être aussi la dernière. Forte de son avance substantielle sur ses rivaux et des relations nouées avec les bibliothèques et les éditeurs, la firme jouit désormais d’un monopole de fait ; aucun concurrent ne peut espérer combler l’écart, et la technologie ne fera pas baisser les coûts d’entrée sur ce marché : pareille aventure restera toujours très coûteuse en main-d’œuvre. Voilà qui légitime les inquiétudes qui se sont exprimées concernant les questions de coût, d’accès et de protection de la vie privée. Mais, pour les chercheurs, la domination de Google pose une question particulière, tout aussi fondamentale : quelles garanties avons-nous que Google fera cela correctement ? Tout dépendant, bien sûr, de ce que « cela » veut dire. Google n’a cessé de changer de discours sur le projet. L’entreprise aime à parler de Google Books comme d’une « bibliothèque », mais les livres ne sont pour elle qu’une source d’information parmi d’autres, qu’elle entend intégrer au « Grand Google (2) ». Comme l’explique Sergey Brin, cofondateur de l’entreprise : « Nous avons simplement le sentiment que cela fait partie de notre mission fondamentale. Les livres contiennent de fabuleuses quantités d’informations. Souvent, quand j’effectue une recherche, ce que je trouve dans un livre est de très loin supérieur à ce que je trouve sur le Web. » S’il en est ainsi, la qualité de Google Books sera jaugée uniquement à l’aune de sa contribution à cette activité familière que nous appelons « googliser », en hommage à la spécialité de la firme : la recherche d’informations à l’aide d’une série de mots-clés. Ce genre d’entreprise n’a nul besoin des « métadonnées », ces informations sur les ouvrages eux-mêmes – « qui, quoi, où et quand » – fournies par les catalogues des bibliothèques. Il suffit de trouver dans un livre le passage qui répond à nos besoins et de s’y engouffrer. Mais on s’intéresse parfois à un livre pour autre chose que l’information qu’il contient, et « googliser » n’est alors pas d’un grand secours. Si l’on recherche une édition particulière de Feuilles d’herbe à partir du fameux « Je contiens des multitudes », c’est précisément ce que l’on obtient : des multitudes (3). Il faudrait pouvoir focaliser la recherche sur les métadonnées de l’ouvrage, comme lorsqu’on essaie de recenser toutes les éditions françaises du Contrat social de Rousseau publiées avant 1800 ou tous les recueils de sermons victoriens traitant du blasphème. Poussées d’adrénaline chez les linguistes On peut également s’intéresser aux livres pour leur valeur de témoignage sur l’état de la langue à une époque ou dans un genre donnés. La perspective de voir mis en ligne d’immenses fonds d’ouvrages anciens provoque, on l’imagine, des poussées d’adrénaline chez les linguistes et les lexico-fanatiques. Mais la perspective est tout aussi stimulante pour les historiens du social, de la vie politique ou des idées, ou pour les spécialistes de philologie littéraire, ancienne et nouvelle. Le vaste ensemble d’ouvrages déjà numérisés permet de suivre à la trace l’émergence au XVIIe siècle du mot bonheur en lieu et place de félicité, de mesurer statistiquement l’essor et le déclin de propagande ou de démocratie industrielle au XXe siècle, ou de sélectionner tous les romans victoriens qui contiennent l’expression « Cher lecteur ». Mais, pour ce type de questions, il faut des métadonnées fiables sur les dates de publication et la nomenclature des livres. Or les informations fournies par Google Books sont à cet égard une catastrophe absolue : un méli-mélo doublé d’un imbroglio triplé d’une gigantesque pagaille.
Lire la suite : http://www.booksmag.fr/philo-et-idee/le-musee-des-erreurs-de-google-books/