EN feuilletant le Figaro vendredi soir, je suis tombé sur cet article qui m’a permis de découvrir Books Ngram Viewer, l’un des plus beaux projets Googlelabs. De quoi s’agit-il? Tout simplement d’accéder aux statistiques d’occurrences des différents termes utilisés dans les livres numérisés par Google. Un projet gigantesque, qui fournit un outil de travail inestimable pour les linguistes, dans les langues suivantes: anglais (en faisant la distinction entre anglais UK et anglais US), français, chinois, russe, hébreu et allemand. Mieux, ces données sont accessibles soit à l’état brut, soit sous la forme d’une interface de requête très simple, comme seul Google sait les réaliser (on dirait du Google Trends…).
Voici ce que cela donne, par exemple, pour les termes guerre et paix.
C’est bien normal, on préfère se faire peur et parler de guerre, que de parler de paix. Mais ce qui est surprenant, c’est que le pic sur le terme ‘paix’ qui suit la première guerre mondiale n’apparaît pas après la seconde, comme si la portion francophone de l’humanité n’y croyait plus.
Autre exemple étonnant, la différence d’occurence entre les termes chient et chat.
Dans l’exemple ci-contre, les occurrences des termes Angleterre et Allemagne semblent relativement alignées. On ne fait pas de préférence pour ces deux voisins.
LJe vous laisse jouer avec cet outil très amusant, qui vous permettra de faire de remarquables découvertes linguistiques, notamment en comparant les grands événements de ces 200 dernières années et les termes qui leur sont associés.