La mécanique des fluides

if:book signale une initiative très intéressante : la republication en ligne, sous la forme d'un blog hébergé par Wordpress.com, du journal de George Orwell. Le 9 août 2008 a commencé la publication des notes (j'allais écrire "billets") prises le 9 août 1938... C'est donc avec un léger différé de soixante-dix années, scrupuleusement respecté, que le carnet de George Orwell, figure littéraire du XXe siècle, est publié en ligne. L'auteur de La ferme des animaux et de 1984, entre donc de plein pied dans le monde de l'édition électronique.

Processus discret vs processus continu

Cette initiative est intéressante d'abord en raison de sa stratégie éditoriale : ne pas publier le texte en un seul bloc, ou en quelques volumes, comme on l'aurait fait dans l'édition papier. Mais s'appuyer sur la nature liquide du numérique. On peut publier en goutte-à-goutte ou massivement, en fonction des besoins de la plantation. Ainsi, le 28 août 1938, il y a exactement 70 ans, Orwell écrit : « La nuit dernière, une heure de pluie. La journée d'hier a été chaude et couverte. Aujourd'hui, idem, avec quelques gouttes de pluie dans l'après-midi. La récolte du houblon commencera dans une semaine environ » [1]. La publication cherche donc à être particulièrement fidèle au processus d'écriture du carnet, et non à un processus discret de publication de celui-ci par volumes papier. J'utilise le terme discret- au sens mathématique. Dans ce sens, la publication numérique peut être considérée comme continue. Elle ne l'est pas seulement en raison de son rythme. Elle l'est plus globalement, me semble-t-il, par nature.

Une information pauvre ?

Considérons la structuration de l'information. Les porteurs de ce projet ont fait leur ce qui pourrait être une maxime du web : simple is beautifull. En effet, ils se sont contentés de technologies basiques, disons low-tech [2] pour faire simple : un CMS libre spécialisé dans les blogs (wordpress), un hébergement gratuit sur une plateforme industrielle et privée (wordpress.com), quelques liens hypertextes, quelques tags. Selon tout apparence, il s'agit d'une entreprise éditoriale rudimentaire d'un point de vue informationnel : chaque billet est décrit par un titre, il contient un texte édité dans un éditeur WYSIWYG (et non dans un éditeur XML en fonction d'une DTD très riche de type TEI) S'y ajoutent des rubriques, des tags et des commentaires rédigés par le public et par l'éditeur.

Naviguer n'est pas feuilleter

En réalité, le corpus est richement décrit. Il l'est, d'abord, grâce aux notes de l'édition originale, entreprise qui a duré 17 ans, menée par le Professeur Peter Davison. Il l'est, ensuite, par un nouveau travail d'enrichissement produit par l'éditeur (The Orwell Prize). Ainsi, les tags n'existaient pas dans l'édition originale en 20 volumes. Et, le 28 août 2008, les tags « hop-picking » et « weather » ont été associés au billet du jour. Des catégories sont également associées aux billets. Dans quelques mois, il sera donc possible de parcourir par navigation ce corpus de façon inédite, simplement parce qu'il est désormais indexé, à travers un travail éditorial de longue haleine.

De plus, l'éditeur a inséré des liens hypertextes à l'intérieur du texte. Le 25 août, les liens ajoutés portaient vers :
Google maps,
Ukmoths, un site spécialisé dans la description des papillons, et Owlpages, un site spécialisé dans la description des hiboux,
Wikipedia (version anglaise)
une note sur la récolte du Houblon dans les mémoires d'Orwell, publiée sur le site http://www.theorwellprize.co.uk

Et, comme toujours, le banal et décisif modèle de la conversation

Comme dans tout blog, il existe également la possibilité d'ajouter des commentaires. Ce sont pas moins de 23 commentaires, formant une conversation, qui ont été ajoutés au billet du 25 août. Les discussions portent très précisément sur le billet. Nous ignorons s'ils sont publiés a priori ou a posteriori [3].

Un travail d'édition érudite

Il semble bien que nous soyons en présence d'un travail d'édition érudite, s'appuyant sur des ressources de nature numérique diverses. Les puristes s'inquièteront de l'hétérogénéité des liens, donc de leur probable instabilité, puisque le web est un gigantesque cimétière d'erreurs 404... Ils noteront des liens vers des outils pour lesquels la citabilité, le maintien du libre accès, la persistance de la qualité de l'information, peuvent être incertains. Enfin, ils avanceront qu'une plateforme de blogs n'est pas une plateforme d'édition électronique. Que l'encodage XML n'est pas conforme à l'état de l'art de l'édition de sources... N'en jetons plus.

Toujours pas d'utilisation de Webcitation.org à l'horizon ...

Concernant l'instabilité de liens lancés vers le web, je suis bien entendu inquiet... et je me demande s'il ne serait pas opportun de leur proposer de s'appuyer sur des projets tels que Webcitation qui sont destinés aux chercheurs qui veulent pouvoir citer une ressource et en capturer une image durvablement, via un service tiers en lequel on puisse avoir confiance.

La dynamique des couches

Je suis beaucoup moins inquiet en ce qui concerne le caractère prétendûment insuffisant de la sémantisation. Si les éditeurs parviennent à tenir le niveau d'enrichissement par tags, catégories et liens hypertextes dont ils font preuve actuellement, ils construiront un corpus hautement enrichi. Les informations inscrites dans le texte, mais pas encodées sémantiquement, comme la date de publication originale, par exemple, pourront être ajoutées à l'avenir. Il faudra changer de plateforme ? Qu'à cela ne tienne ! Il faudra ré-encoder le contenu ? Où est le problème ? L'édition papier nous a habitués à une forme textuelle et informationnelle figée. L'information numérique est constituée de couches, qui peuvent être ajoutées à des époques successives. [4] C'est, si j'ai bien compris, plus ou moins le le sens de la redocumentarisation défendue par Roger T. Pédauque et par ses parents. Ce terme me semble un peu trop marqué par une profession particulière. Quoi qu'il en soit, il s'agit, me semble-t-il, d'un processus d'enrichissement informationnel continu. Toujours inachevé, ce processus est constitutif du document numérique.

Au risque de l'accident industriel ?

Or, en ce domaine, l'accident industriel est toujours possible. Faudra-t-il jeter les premières couches d'information, en raison de l'impossibilité de les récupérer sur la plateforme ? Faudra-t-il les abandonner en raison de leur incompatibilité avec de nouveaux besoins ? Faudra-t-il dépasser des sommes importantes pour les appauvrir, leur nature étant trop irrégulière, voire confuse, pour être une base correcte de nouveaux enrichissements ? On peut toujours le craindre, quand on lit dans les commentaires du journal d'Orwell des propositions astucieuses mais bricolées d'utilisation de mises en forme locales, telles l'adoption de polices ou de couleurs particulières, pour désigner des zones particulières du texte retranscrit. Une étude de génétique des textes, par exemple, pourra-t-elle se greffer sur les couches existantes ou devra-t-elle repartir d'un document allégé ?

On pourrait citer nombre d'initiatives d'édition électronique représentant un travail énorme, et dont les résultats furent jetés aux oubliettes du numérique. C'est le cas, par exemple, de travaux de numérisation d'ampleur moyenne, dont la structuration s'est révélée si coûteuse qu'il a fallu engager un nouveau travail de numérisation, ex-nihilo. Entre le palimpseste indigeste et celui qui flatte le palais en raison de la finesse de ses nuances et de la qualité de ses ingrédients, il n'y a souvent que quelques octets de différence par document.

La dynamique des usages et des formats ouverts

A l'inverse, on pourrait citer de nombreux exemples d'édition électronique qui ont survécu à l'érosion induite par l'écoulement, rapide, du temps numérique. Ces textes-là ont survécu car ils ont pu se comporter comme des couches d'informations restées lisibles, exploitables et enrichissables. En ce qui concerne l'édition électronique du journal d'Orwell, il est possible que l'initiative ne soit pas destinée à être abandonnée dans les cimetières de l'histoire. Pourquoi ?

D'une part, parce que ses promoteurs ont fait le pari des usages. Faire le choix d'une plateforme publique et célèbre, facile d'accès, rapide à alimenter et où les commentaires sont aisés, c'est en effet faire le choix des usages de lecture et d'annotation. C'est-à-dire qu'ils ont choisi de rendre le texte largement public. Ils l'ont publié, au sens noble.

D'autre part, parce que les éditeurs ont fait le choix d'une plateforme ouverte, dans laquelle il est possible de rapatrier à tout moment la totalité du contenu, sans appauvrissement, sans altération, sans perte, mais aussi sans barrière, sans taxe, sans douane, sans cerbère. Wordpress.com joue la carte de l'ouverture des données et des formats, au plus grand bénéfice des auteurs des carnets publiés sur cette plateforme. Tous ne peuvent pas en dire autant...

[1] Traduction M.D. de « Night before last an hour's rain. Yesterday hot & overcast. Today ditto, with a few drops of rain in the afternoon. The hop-picking due to start in about a week. »

[2] C'est aussi la marque de fabrique du plus ancien projet de numérisation massive, le Gutenberg project.

[3] nous aimerions en savoir plus au sujet de la politique de modération et la charge de travail qu'elle représentent

[4] Les informaticiens utilisent la notion de couches pour distinguer, dans un dispositif informatique complexe, différents étages. Par exemple, la couche hardware et à distinguer de la couche software. Dans la couche software, on distingue, grossièrement, l'OS et les applications. Les géologues parleraient de strates. Les goumets de feuilletés. Les adeptes de Photoshop parleraient de « calques », qui se traduit en « layers » en anglais... ce qui signifie aussi « couches ».

Crédits : Writing, by Jkim1. Licence cc. http://flickr.com/photos/jkim1/452830868/