Pour autant, Gallimard n'entend pas rester inactif sur le secteur de la numérisation de son catalogue : « Nous sommes en train de procéder à la numérisation des 30 000 ouvrages qui constituent notre fond », poursuit Alban Cerisier. La maison d'édition utilise les fichiers numérisés pour son propre usage patrimonial, pour conserver les ouvrages qu'elle édite depuis 1911.
Elle entend aussi s'appuyer sur le numérique pour assurer la promotion en ligne de ses livres grâce aux services de « feuilletages », qui permettent la consultation sur internet d'extraits des oeuvres. « Il s'agit pour nous d'une opportunité de promotion des ouvrages, avec la possibilité de renvoyer vers un achat physique », explique Alban Cerisier. Pour l'instant Gallimard n'a pas passé d'accords avec les mastodontes du secteur, comme Google et Amazon, qui proposent de tels services. « Nous avons une réserve de principe et de droit sur la numérisation sans autorisation effectuée par Google », note le responsable.
De plus, Gallimard souhaite maîtriser ses fichiers : « On peut considérer, en tant qu'éditeur, que nous avons notre mot à dire, en concertation avec l'auteur, sur ce qui peut être feuilleté ou non, sur les pages qui sont les plus représentatives d'un ouvrage. » C'est pourquoi la maison d'édition veut d'abord proposer, à court terme, un service de feuilletage à partir de son propre site internet, avant d'ouvrir ensuite ses bases de données à d'autres sociétés.
La reconnaissance optique fiable à 99 %
Le processus de numérisation est classique : il faut réaliser une image (un scan) des pages des livres, puis grâce à des technologies de reconnaissance optique de caractère (OCR), convertir à nouveau ces images en texte, dans un fichier numérique. Il y a toutefois un hic : les technologies OCR sont fiables à 99 %, c'est-à-dire qu'elles laissent passer en moyenne une erreur sur cent.
« C'est correct si on se sert uniquement du fichier numérique pour trouver la bonne page, comme par exemple dans les services de Google », précise Alain Perrot d'I2S. Mais en revanche, c'est largement en dessus des standards du secteur pour la publication d'un ouvrage par exemple : le niveau d'exigence pour un relecteur correcteur humain, dans l'édition, est de laisser passer seulement une erreur sur dix mille, rappelle-t-il.
D'où la nécessité pour les maisons d'édition d'adapter leur stratégie de numérisation, en fonction de l'utilisation future des fichiers. « Si l'on veut rééditer un ouvrage, sous un autre format, il faut un texte numérique quasi parfait, que l'on ne peut obtenir que par une technologie OCR complétée par une relecture humaine. » Ce qui entraîne forcément des coups supplémentaires pour les maisons d'édition.
Autant de raisons qui expliquent pourquoi Gallimard avance à pas comptés vers l'étape suivante, la vente de fichiers numérisés : « Pour l'instant, nous faisons une veille sur les usages », explique Alban Cerisier. « Nous ne serons pas forcément diffuseur et distributeur en direct de ces fichiers », même si la maison d'édition réfléchit à la gestion d'une partie de ces services en interne. « Idéalement, nous souhaiterions recréer un équivalent numérique de notre diffusion et de notre distribution physique », conclut le responsable.
Par Estelle Dumout, ZDNet France
& <><> <>