Quelques nouvelles du projet de site de référencement des ventes de livres anciens mené par Yohann et son groupe d'amis

Amis Bibliophiles bonjour,

Dans son portrait sur le blog, Yohann (http://bibliophilie.blogspot.com/2010/11/portrait-de-bibliophile-yohann.html) nous avait présenté son projet de site de référencement des ventes de livres anciens. Il nous fera visiter les coulisses de ce site au fil des mois et nous propose aujourd'hui un 2ème message sur le projet."Qui est ce petit groupe de bibliophiles?

A l’origine du projet, ma petite personne qu’Hugues a présentée dans un précédent post, ainsi que 2 autres amis ingénieurs bibliophiles comme moi. Certains amis juristes ou littéraires, nous accompagnent de leurs conseils.

Comme déjà exprimé notre objectif n’est pas commercial, nous souhaitons réaliser un outil utile et le plus perfectionné possible, cela sur notre temps libre. A trois, nous avons à l’originalité de cumuler 4 nationalités différentes ( FR, DE, GB, AU ),et nous essaierons donc à terme de communiquer en trois langues. Le plus âgé d’entre nous a 36 ans.

Le projet:
Le cœur du système est un moteur de recherche récupérant sur le site Web que nous créerons les informations suivantes :- livres ventes à venir- livres ventes passées, résultats – (essentiel)- livres issus des catalogues du XVIII & XIX & début XXObjectifs fonctionnels :A – Recherche de lots ( ventes passées, ventes futures )Nous souhaitons avoir deux types de recherches différentes :1- La recherche classique par mot clef : qui a le défaut de souvent faire sortir trop de résultats2- Une recherche sur des champs plus précis avec critères s’additionnant ou s’excluant (comme chez Google par exemple) sur des champs :- auteur- titre- année d’édition- reliure- armoiries- état- (autres ? – si des champs paraissent essentiels à vos lecteurs, qu’ils n’hésitent pas)

B – Serendipte ( ventes futures ):Nous souhaitons, sur la base des recherches que les lecteurs feront; pouvoir identifier pour eux des livres dans les ventes futures correspondant aux thèmes ou critères de recherche, et automatiquement présenter des lots qu’ils n’auraient pas eu l’idée de chercher. Tous les ouvrages mis en vente par les SVV seront automatiquement classés dans une dizaine de catégories (analyse sémantique) pour permettre à partir des IP de nos lecteurs de leur proposer des ouvrages équivalents aux thèmes des recherches réalisées.

C’est une démarche franchement nouvelle, utile pour les ventes futures, donc pour les SVV.
C – Alertes ( ventes futures ):Même principe qu’en 1 : alerte utilisant des association de mots clef pour éviter les messages d’alertes intempestifs.
D – Publication:Publier sur une base bi annuelle un état du marché sur des bases statistiques très larges, et analyser de manière très fine l’évolution du marche par catégories de livres. Et pourquoi pas trouver même des corrélations avec des événements théoriquement indépendants.
Et nous pourrions même rêver qu’ebay nous donne accès à sa base de descriptif de livres et aux prix de vente réalisés, il y a là un marché parallèle que je me ferai un plaisir d’étudier, allez, c’est un appel, si Yann Russo Pdg d’Ebay France me lis : je suis à sa dispo ;-)
E – Fonctionnalité amusantes:Intégration dans l’affichage des résultats des données revalorisées (érosion monétaire, ou même conversion Frc OR -> Euro)
Mais tout projet a naturellement ses contraintes qui rendent le sujet plus ou moins réalisable.Quelles sont-elles ? :
Les contraintes des maisons de ventes:
1 – Obtenir l’autorisation des maisons de ventes de diffuser leurs catalogues de vente sur notre moteur de recherche de lots: nous publierons les ventes si elles nous donnent les résultats.2 – Récupérer le plus possible de résultats  - VALIDES  (certaines SVV sont cachottières, ou un peu trop créatives, et je pense que ça leur coûte quelques vendeurs)3 – Obtenir un accord pour scanner + OCR leurs stocks d’anciens catalogues (ceux que nous ne disposons pas)
Contraintes techniques:
1 – Automatisation de la segmentation par lot de tous les textes brut issus des catalogues que nous avons (sources pdf, images scannées, word, etc) – c’est une étape nécessaire si vous voulez chercher un lot avec 2 mots clef par exemple au milieu d’un document de 500 pages. Sans cela vous vous retrouveriez avec des champs réponses pouvant s’étendre sur des centaines de lots, donc ne rien obtenir.2 – Association automatisée des images issues des catalogues avec les descriptifs, en effet tant que nous partons de fichier scannés ou pdf, les images perdent le nom sous lequel elles sont enregistrées, et qui permet l’association automatique à un lot.3 – Programmer l’analyse sémantique de tous les lots permettant de classifier chaque lot pour :- être utilisé par le moteur de recherche spécialisé livres- être utilisé à terme pour l’outil de serendipité4 – Reconnaissance d’écriture pour les ouvrages du XVIII, ( les f ne sont pas reconnus, et la typographie ancienne passe mal dans les outils OCR actuels ), lorsque vous affichez par exemple le catalogue de la pompadour avec Google option texte brut : ca laisse rêveur... et c'est ce point qui sera réellement le plus problématique.
Contraintes financières:
Ca tombe bien, presque aucune ;-), juste ENORMEMENT de TEMPS. A terme nous pensons faire payer une cotisation annuelle très faible (mettons 30/40€ ) pour avoir accès aux résultats de ventes anciennes ainsi qu’à toutes les données historiques que nous aurons triées, et d’ailleurs quand le moment sera venu j’aimerai faire voter les lecteurs du blog pour identifier un prix juste.
Si nous obtenons 100 adhérents, nous devrions générer suffisamment d’argent pour sous-traiter le scan + OCR de 10 à 20000 pages par an sur des machines professionnelles.
Appel aux lecteurs du blog :
Si notre projet vous intéresse, vous pouvez nous aider de 3 manières :-  en parler aux SVV que vous connaissez et qui organisent des ventes de livres, notre service sera totalement gratuit pour les SVV nous envoyant leur catalogues pdf ou word + photo et résultats (peu importe le format) : nous connaissons assez bien le milieux parisien, mais sommes malheureusement assez déconnecté des autres régions de France
-   Si vous disposez de stock catalogues sous format numériques ( doc, pdf ou même photographies  de pages de catalogues ) cela nous intéresse, nous pourrions peut-etre vous apporter notre outils informatique pour rendre vos doc utilisables ( classif, isolation des lots ), et donc utiliser vos documents sur notre base.-  Idem pour les stock de catalogues physiques dans un second temps.
C'est, vous le constatez, un gros projet, qui d’un point de vue technique est franchement intéressant (de mon point de vue d’ingénieur éduqué avec le we ), le sujet est forcément passionnant puisqu’il s’agit de bibliophilie.
A titre personnel, j’espère sincèrement que certains des lecteurs prendrons contact, ca nous confirmera que l’investissement personnel que nous sommes en train de réaliser est vraiment utile.
J’espère ne pas vous avoir trop ennuyé avec ce long descriptif, et si c’est le cas, je ferai beaucoup plus court, dans les prochains post.
Lorsque la base de test sera disponible, je vous proposerai de l’utiliser et de développer en fonction des conseils et suggestions de chacun, un projet collaboratif."Merci YohannH