Une recherche financée par l’UE a développé un système pour accélérer la numérisation, afin de faciliter la diffusion des documents numérisés, et ainsi les rendre plus accessible tout en s'assurant de leur qualité.
Pour améliorer l'indexation des documents numérisés en masse à destination des bibliothèques nationales, des musées, des archives, des chercheurs européens ont mis au point des outils de traitement. Ces bibliothèques ont en effet l’obligation de rendre tout ce qui existe disponibles par biais électronique puisque "de nos jours, ce qui n'est pas numérique n'est pas visible" déclare Hildelies Balk, chef de projets européens à la Koninklijke Bibliotheek, au Pays-Bas. Autrefois le processus de numérisation consistait simplement en la numérisation d’un document en image. Aujourd'hui, l'image est numérisée puis traitée grâce à la "reconnaissance optique de caractères" (ROC) afin d’extraire le texte dans un format numérique. Une fois le texte numérisé, l'ensemble du document est disponible pour l'indexation et accessible depuis les moteurs de recherche. Toutefois convertir des mots imprimés en un texte lisible depuis une machine n’est pas suffisant. "La numérisation de masse génère des ressources immenses pour un avenir proche, nous verrons une prolifération d'applications qui exploiteront et monétiseront ces ressources. Mais nous devons d’abord être convaincus que la version numérique d'un texte historique est une copie conforme à l'original" note Hildelies Balk.
Nettoyer l’image numérisée
Depuis quatre ans elle coordonne le projet «Improving Access To Text» dont l’objectif concerne l’amélioration de la fiabilité et de l'exactitude des textes produits grâce au développement de logiciels et de modules de traitement appliquées aux images numérisées. L'Université de Salford au Royaume-Uni, le Centre national de la recherche scientifique Demokritos à Athènes et ABBYY des spécialistes de la technologie ROC basé à Moscou ont travaillé sur une variété d'algorithmes de traitement d'image qui pourrait analyser et ajuster l'image numérisée. Leur outil de recherche étudie l’alignement des caractères sur la page et redresse les lignes de texte biaisées car près de l’arrête du livre. Un autre algorithme supprime l'aspect aléatoire de pixels noirs et blancs qui apparaissent fréquemment dans les images numérisées.
Contexte historique et orthographe
Mais la nature des textes historiques rend parfois le ROC moins précis, c’est pourquoi les chercheurs ont développé un dictionnaire historique dont le logiciel se sert pour améliorer ses transcriptions. Il précise la numérisation puisqu’il forme des mots à partir de caractères qu’il a reconnu et vérifie qu’ils existent ou les devine en trouvant ceux qui s’en rapprochent orthographiquement. Afin de conserver les orthographes originales les chercheurs ont compilé des dictionnaires de mots étranges et les ont fait correspondre avec leurs différentes orthographes et leurs synonymes modernes. Ainsi le ROC sera capable de transcrire un document mot pour mot, et de convertir un texte avec l'orthographe moderne. Enfin, avec la numérisation de masse ces outils fonctionnent automatiquement. Néanmoins, de nouvelles technologies sont développées pour permettre aux utilisateurs de vérifier la production OCR rapidement et facilement.