Google labs n'en finit pas de pétiller. Dernière effervescence en date, le visionneur Ngram des livres anciens. Un intitulé un peu ronflant qui offre cependant un outil vraiment intéressant, permettant de calculer instantanément le nombre d'occurrences d'un mot au fil des années dans le corpus des millions de livres numérisés par Google.
Google met librement à disposition des internautes une base de données de plus de 500 billions de mots collectés dans les 5,2 millions de livres en chinois, anglais, français, allemand, russe et espagnol. L'Université d'Harvard, représentée par les chercheurs Jean-Baptiste Michel et Erez Lieberman Aiden, étaient intéressée par créer la base en partenariat avec Google dans le cadre de recherches sur la médiatisation des innovations, la censure, etc.
Et voici donc l'outil librement accessible aujourd'hui à n'importe qui. Comment fonctionne-t-il ? Très simplement, il suffit d'entrer un vocable ou plusieurs pour visualiser des courbes chronologiques qui indiquent le nombre de fois où ces vocables apparaissent dans les millions de livres numérisés. Mais cela doit prendre un temps fou, me direz-vous. Et bien non, le résultat est instantané car les occurrences (jusqu'à 5 consécutives) ont déjà été calculées et archivées entre 2009 et 2010.
Du coup, ce nouvel outil est tout à fait performant. Exemple, je veux connaître les variations du mot « bibliophile » sur trois siècles, de 1700 à 2000 dans la littérature française. On constate, dans le résultat ci-dessous, que le terme n'apparait que vers 1790 et que son emploi est très variable. Après un démarrage confidentiel, ce n'est que vers 1830 que le bibliophile connaît un intérêt qui ira en grandissant jusqu'à son acmé vers 1880. Intéressant d'observer les dents de scie du bibliophile jusqu'à notre époque, en particulier la chute brutale du terme pendant la Seconde guerre mondiale, réalité qui correspond bien au contexte réel de la pénurie et de la censure.
Le fait de pouvoir visualiser deux recherches sur un même graphe permet au curieux d'appréhender certaines réalités bibliophiles nouvelles. Ainsi, nous avons interrogé le visualiseur Ngram sur l'emploi des mots romantique et fantastique entre 1700 et 1900 dans les ouvrages français. On constate une confidentialité jusqu'en 1780, puis des variations calées l'une sur l'autre jusqu'à la fin du XIXe siècle. Alors qu'entre 1840 et 1890, la mode du fantastique surpasse le romantisme, un croisement spectaculaire s'opère dans les années 1890 et provoque un départ en flèche du romantisme à l'aube du XXe siècle, écrasant totalement le fantastique.
Je me garderai bien d'utiliser ces résultats pour en tirer des conclusions définitives sans les contrôler dans les fiches de données exhaustives (très longues à charger) auxquelles Google donne librement accès. Mais pour le quotidien du bibliophile, le visualiseur Ngram offre un outil neuf et performant pour avoir des réponses basiques d'ordre macro-bibliophile. Une adresse à mettre donc en signet car cet outil supplémentaire reste capable de fouiller instantanément des millions d'ouvrages anciens pour nous servir la réponse sur un plateau. A nous d'en inventer les usages.