Numérisation : la BNF et Wikimedia France signent un accord

Par Ebouquin


Le catalogue de Google Books croît, tandis que Google Editions est toujours prévu pour l’été, du coup, les bibliothèques nationales doivent mettre les bouchées doubles pour se préparer à l’arrivée du mastodonte. C’est le cas de la Bibliothèque nationale de France (BnF) et de l’association Wikimédia France qui ont signé un accord de partenariat dans le but de permettre à tous les internautes d’avoir accès aux transcriptions d’oeuvres tombées dans le domaine public issues de Gallica, depuis Wikisource. Au total, ce sont 1400 textes en français qui vont être ajoutés à Wikisource, dans les prochaines semaines.

Pour numériser son fond, la BnF doit utiliser un système d’OCR (reconnaissance de caractères sur une image, afin de permettre la recherche dans le texte ou pour transformer l’ouvrage en fichier texte ou ePub, par exemple) qui n’est pas parfait et génère des erreurs, en particulier sur les textes anciens. Les internautes pourront alors corriger les textes retranscris pour les rendre conforme au texte original. La BnF fait donc appel à un système d’”OCR collaboratif” ou correction collaborative pour améliorer la qualité de son fond numérisé. Wikisource est déjà connu pour proposer aujourd’hui plus de 50 000 textes, issus du domaine public ou sous licence public, et dont la qualité fait référence. L’initiative de la BnF et de Wikimedia France est à saluer !