OR 2008: notes

Publié le 21 mai 2008 par Pintini
Voilà, j'ai (enfin) mis un peu d'ordre, autant que faire se peut, dans mes quelques notes (et souvenirs) de l'Open Repositories 2008 de début avril. Je n'évoque ici bien entendu que les sessions auxquelles j'ai assisté.
> Sessions "Social Networking" (01/04/08)
Open Repositories 2.0: Harvesting Community Annotations to Enhance Discovery services
Où il a été question de toute la problématique des tags sociaux, de leur (éventuelle) complémentarité avec des métadonnées d'autorité, pourrait-on dire, les uns et les autres ayant des avantages et des désavantages, comme on le sait.
Où il a été question, bien entendu, de communautés (de chercheurs en l'occurrence), de folksonomies et puis surtout d'annotations (une version plus pro des tags, si j'ai bien compris).
Où il a été question d'HarvANA (Harvesting and Aggregating Networked Annotations), un système développé à l'université du Queensland (Australie) qui se base sur un modèle RDF standard mais étendu pour représenter les données et sur OAI-PMH pour l'harvesting des annotations qui sont ensuite centralisées dans un metadata store. L'objectif est bien entendu au final d'ouvrir les données et d'améliorer les possibilités de découverte de ressources/informations par les utilisateurs via des interfaces riches (et les fameux discovery services).
[Présentation] (pdf)
[Voir aussi:]
- HarVANA (description du projet)
- HarVANA - Harvesting Community Tags to Enrich Collection Metadata
Towards an Open Repository of Teaching Resources
Où il a été surtout question de l'état d'avancement du projet Faroes (un dépôt de ressources pour l'enseignement basé sur la plateforme CLARE, une version adaptée d'EPrints).
Où il a été question de l'adaptation nécessaire de l'outil aux "nouvelles attentes", provoquées (plus ou moins) par l'impact du web 2.0. Le projet est donc maintenant tourné davantage sur la collaboration, le partage de ressources, etc. (Voir le projet de puffinshare.)
[Présentation] (pdf)
[Voir aussi:] Faroes
Embedding the Managed Repository in National Science Digital Library (NSDL) Semantic Library Services
Où il a été question de services qui permettraient, si j'ai tout bien compris, de récupérer les fameuses annotations des utilisateurs (sur les blogs et les wikis de la NSDL), principalement sous la forme de billets et d'articles, donc, et de les ingester dans le NSDL Data repository (NDR).
[Présentation] (pdf)
[Voir aussi:]
- NSDL, le site
NSDL, les blogs
- A propos de NDR
[Voir aussi:]
- Connotea
- RDF and social networks
- Bradley, Jean-Claude (2008) Open Notebook Science: Implications for the Future of Libraries, University of British Columbia School of Library, Archival and Information Studies (SLAIS). Présentation
...
> Sessions "Interoperability" (01/04/08)
SWORD : simple web service offering repository deposit
Où il a été question de l'état d'avancement du projet, financé par le JISC, jusqu'à présent. En bref, l'objectif de SWORD est de permettre un mécanisme de dépôt standardisé (un service web implémentable sur les principales plateformes: EPrints, DSpace, Fedora, IntraLibary).
Où il a été question de l'Atom Publishing Protocol, le protocol utilisé par SWORD.
Où il a été question des motivations qui ont poussé l'UKOLN à lancer le projet, dont notamment l'absence d'interface standardisée permettant le transfert d'objets d'un dépôt à l'autre ainsi que l'absence de mécanisme permettant "en un clic" de déposer un document dans plusieurs dépôts.
Où il a été question des différentes utilisations possibles: dépôt via desktop et/ou outil en ligne; dépôt multiple; dépôt automatisé; transfert (vers un système de conservation, par exemple).
Où il a été question des paramètres indispensables (obligatoires donc): la possibilité de déposer n'importe quel type de contenu; l'identification (collection id, identifier); le statut de dépôt et la gestion des erreurs.
Où il a aussi été question des limites du système et notamment au niveau conceptuel: le choix d'Atom implique l'ingestion d'un single package (un seul gros fichier, si vous voulez) et donc la nécessité de "grouper" métadonnées et fichiers (alors que la plupart des systèmes fonctionnent en scindant ces éléments).
[Présentation] (pdf)
[Voir aussi:]
- Plus d'infos sur le projet
-
SWORD: Simple Web-service Offering Repository Deposit (article paru sur Ariadne, n°54, janv. 08)
- arXiv case study
- Feedforward
Breaking the Repository Ingest Barrier
Où il a été question d'une des difficultés rencontrées dans le "remplissage" des dépôts, à savoir l'absence ou le manque d'usabilité d'outils qui relient/relieraient les applications couramment utilisées par les chercheurs et les profs avec les dépôts. Par des procédures à tout le moins automatisées (le fameux "one click ingest").
Où il a été question du projet RIFF (Repository Interoperability Framework) qui vise, en bref, à définir certaines des workflows des utilisateurs et à développer les services qui permettraient de les intégrer sur deux plateformes: Fez+Fedora et DSpace. Parmi ces workflows, le suivant a été particulièrement évoqué lors de la présentation: OJS Journals -> dépôts. Le but étant de développer un service de soumission à partir d'articles intégrés dans OJS vers les dépôts. Ce process repose sur METS, qui est utilisé pour l'échange de données entre les applications et les dépôts (cf. l'Australian METS Profile). Celui-ci est composé 1) d'un core profile (le minimum requis, c'est-à-dire METS tel que défini à la LoC), 2) de content profiles (qui héritent du premier ses règles et ses propriétés et qui contiennent des spécificités, en fonction par exemple du type de document à soumettre, gérées en local), 3) d'implementation profiles (qui héritent les propriétés des seconds et qui eux aussi peuvent contenir des spécificités, toujours gérées en local).
[Présentation] (pdf)
The NCore Platform: An Open-Source Suite of Tools and Services for Implementing Digital Libraries
Où il a été question de cet outil développé par et pour la National Science Digital Library (NSDL), et basé sur Fedora. La NSDL gère plus de 2,5 millions de ressources provenant d'une centaine de fournisseurs de collections numériques et de milliers de sites web. La "suite" NCore (le code et tout) est disponible sur SourceForge. Dans le courant de l'année, la version complète sera disponible à la même adresse.
Où il a été question de la notion de "représentation de la connaissance dans son contexte". C'est-à-dire que l'objectif est de permettre aux utilisateurs (ou "communautés" d'utilisateurs) de créer des collections contextualisées ou de les regrouper, et de pouvoir donc les décrire (métadonnées). Les outils des utilisateurs sont les blogs d'Expert Voices, les wikis et On Ramp, un CMS (basé sur Fez-Fedora, permettant de créer, éditer, publier des workflows et des composants réutilisables). A suivre...
[Présentation] (pdf)
[Voir aussi:]
- Ce résumé déposé sur arXiv (article à paraître dans les actes de Joint Conference on Digital Libraries-JCDL 2008)
- Core Services in the Architecture of the National Digital Library for Science Education (NSDL)
- Representing Contextualized Information in the NSDL
[Voir aussi:] Workflows (pdf) (source: Repositories Support Project, Grande-Bretagne, 16/04/08)
...
> Sessions "Scientific repositories" (02/04/08)
The eCrystals Federation
Où il a été question de ce projet qui vise à établir une série de "dépôts de données libres", à travers le monde, dans les laboratoires de cristallographie, sur la base conceptuelle du modèle développé par le projet eBank-UK et le dépôt de l'université de Southampton, eCrystals.
Où il a été question, bien entendu, d'open science: it's happening now (résultats de recherche postés sur des blogs, etc.).
Où il a été question de "communautés" d'utilisateurs: les cristallographes eux-mêmes bien sûr, mais aussi des archivistes, des bibliothécaires, des éditeurs, des fournisseurs d'information, etc., réunis autour du concept, afin de former cette fédération.
Où il a été question des problèmes encore à évaluer, à régler: les questions d'échelle (de volume, etc.), d'interactions entre les acteurs, d'interopérabilité, d'"évangélisation" (advocacy), de viabilité (sustainability), de conservation (PREMIS), etc.
Où il a été question de myExperiment, du réseau social pour scientifiques, en expérimentation (beta je veux dire).
[Présentation] (pdf)
SPECTRa-T: Semantic Web Data Repositories from Chemistry e-Thesis Data Mining
Où il a été question d'un projet très très spécifique: comment extraire, d'une part, des thèses en chimie ces informations "cachées" qu'ils appellent les preparations (des formules expérimentales, ce genre de choses) et, d'autre part, comment créer des ensembles sémantiques (ontologies) à partir de ces données.
Où il a été question de gros gros problèmes avec les fichiers pdf. D'où la nécessité de les traiter (cf. Oscar3). Ou d'utiliser d'autres formats, par exemple Open XML (les .docx). (A ce propos, le format est passé ISO...)
[Présentation] (pdf)
A Sustainable Model based on the Social Network Service to Support the Research Cycle
Où il a été question d'envisager de placer au centre des préoccupations, non pas le DI en lui-même, mais les acteurs, les contributeurs, les utilisateurs ainsi que le "cycle de la recherche". En effet, selon l'auteur de la présentation, les DI contiennent une partie de la recherche, mais pas, par exemple, le travail collaboratif qui est effectué en amont (tout au long du processus de recherche). C'est-à-dire des données non publiées (et qui le sont rarement, il faut le dire, en tout cas dans leur version brute). L'objectif est ici aussi de proposer une sorte de "socio-communautarisation" des dépôts, bref de mettre un peu de web 2.0 dans le moteur. Encore faut-il que les principaux acteurs (les chercheurs, tout de même) soient intéressés. Pas certain.
[Présentation] (pdf)
...
> Sessions "Legal" (02/04/08)
Repositories and Digital Rights: An Overview of the Landscape and an Action Plan
Où il a été question de la (douloureuse?) problématique des droits numériques appliqués aux dépôts. Comment placer les DI dans le paysage complexe de la gestion des droits, des règles internationales en la matière, de leur application et/ou transposition au niveau régional (Europe, par exemple) et national, des licences et contrats des éditeurs, des agrégateurs. Sans oublier l'intégration nécessaire des modèles commerciaux et libres.
Où il a été question de la nécessaire organisation de la profession: notamment au niveau des bonnes pratiques en matière de gestion et de leur diffusion, notamment au niveau de l'écolage (formation) non seulement des utilisateurs des ressources mais également des détenteurs de droits (nos auteurs, nos chercheurs).
Où il a été question du développement d'un data model pour les dépôts [voir image] : mise à disposition des ressources aux utilisateurs autorisés, intégrité de la ressource (c'est-à-dire que le document doit être "unique" et "nonmodifié"), identification de la ressource (identifiant unique, pourvu de métadonnées, non-ambigu, échangeable (interopérabilité), basé sur des standards (handle, URI)).
Où il a été question des médatonnées (rights metadata): statut de la ressource, origine, statut de publication, détenteur des droits, conditions d'utilisation, lien vers les informations de licences (par exemple celles de Creative Commons, cf. cc:REL).
Où il a été question de la notion de "créateur", d'"auteur" (creator) et du fait qu'à peu près tous ceux qui utilisent le web sont ou peuvent devenir des "créateurs", des "auteurs" et donc être, devenir eux-mêmes des détenteurs de droits. De l'importance aussi de maintenir un lien durable entre la ressource et son auteur (après la disparition de ce dernier, la ressource doit continuer à être accessible et reliée à lui - la trilogie auteur-titre-édition).
Où il a été question bien entendu de l'utilisateur et de son identification (authentication, authorization), cf. OpenID, XACML, Shibboleth.
[Présentation] (pdf)
[Voir aussi:] G. Agnew, Digital Rights Management: a practical guide for libraries and archives (nouvelle édition à paraître en juillet 2008 chez Chandos)
Issues for Academic Authors, Institutional Repositories, Open Access Journals and End-Users
Où il a été question d'une enquête menée en Australie fin 2007 par le OAK Law Project parmi des académiques (# 500) sur leurs problèmes avec les dépôts, les revues en libre accès et le modèle classique (abonnements). Afin de tenter de comprendre leurs relations, leurs perceptions, leurs expériences lors de négociations, lors de choix à effectuer avec les éditeurs. Les objectifs de cette enquête étaient de déterminer comment augmenter le taux de dépôt en libre accès, d'une part, et comment trouver un juste milieu entre les craintes des auteurs par rapport au libre et leurs intérêts auprès des éditeurs commerciaux, d'autre part.
Où il a été question des politiques en matière de libre accès dans les institutions académiques (quand et où elles existent...), des fameux "mandats" (quand et où ils existent...), mais aussi de notions telles que la réputation, l'impact des publications, le peer-review, et aussi de l'importance pour un académique, un chercheur d'être publié, sans toujours bien connaître les termes du contrat qu'il signe.
Où il a été question de l'intégration de ces préoccupations dans nos dépôts: statistiques d'usage, mesures diverses, de l'impact, de la représentativité d'un auteur par rapport à un autre, etc. (Alors, les DI, des outils d'évaluation et de reporting? Pas seulement, mais aussi. Même si ce n'est pas leur vocation première, à mon sens. Mais je peux me tromper. En tout cas, tout dépend du point de vue que l'on prend. Je ferme la parenthèse.)
Où il a été question des résultats obtenus: et où il apparaît que la majorité des sondés ne sont pas opposés au principe du libre, ni au libre dépôt dans leur institution, mais que leur priorité est d'être publiés (et non de remplir le dépôt), et que si le fait de publier ou de déposer influe négativement sur leurs chances d'être publiés dans les revues à haut facteur d'impact et peer-review et détenues par les grands éditeurs, eh bien leur choix est clair et se portera surla revue. Plus de la moitié des sondés passent des contrats avec les éditeurs et bien souvent l'accord empêche tout dépôt. Mais il est vrai que la majorité des auteurs sondés avouent s'en désintéresser (publish or perish). Il apparaît aussi très clairement que la majorité des auteurs sondés ne connaissent pas les détails, les différences, les droits finalement qu'ils abandonnent ou les obligations qu'ils contractent. Quant aux raisons pour lesquelles les sondés hésiteraient à déposer: près d'un tiers n'est pas au courant de l'existence des dépôts, certains ne veuelent pas "fâcher" leurs éditeurs, certains craignent une mauvaise utilisation de leurs droits dans un dépôt, d'autres enfin ne sont pas convaincus par l'efficacité des dépôts comme moyen de promotion de leur travail (ou d'eux-mêmes).
En conclusion, il est assez clair que les institutions doivent faire un effort sur les questions de copyright, informer, communiquer, rassurer, convaincre (guides, support, etc.). En ayant une politique claire en matière de libre accès et en matière de gestion des droits. Bref, se donner les moyens...
[Présentation] (pdf)
[Voir aussi:] OAKList Database
Version Identification Framework: requirements and proposed resolutions
Où il a été question du projet VIF (Version Identification Framework), lancé en Grande-Bretagne (JISC, LSE), qui vise à établir une sorte de cahier des charges des problèmes liés à la gestion des versions dans les dépôts et à proposer des recommandations.

Où il a été question de la définition d'une version. D'où débat, chacun ou presque ayant "sa" définition. Celle proposée par le VIF: "A 'version' is a digital object (in whatever format) that existsin time and place and has a context within a larger body of work".
Où il a été question de différents types de recommandations: pour les gestionnaires de dépôts, pour les développeurs, pour les créateurs de contenu. Ainsi, pour les gestionnaires: 1) être clair sur l'identité du dépôt (c'est quoi et à quoi sert-il) et prévoir une saine gestion du versioning; 2) intégrer le projet dans une stratégie plus large (publications scientifiques dans le monde, etc.), établir des politiques institutionnelles claires; 3) réfléchir à une saine gestion d'objets de types différents; 4) inclure un minimum d'information sur les versions dans les métadonnées; 5) s'assurer que la gestion des versions soit prévue dès la soumission. Dans mes notes, je vois aussi qu'il a été question de FRBR, ainsi que de la possibilité de repérer des versions "publiques" de certaines ressources
[Présentation] (pdf)
[Voir aussi:] Versions Toolkit (pdf)
[Voir aussi:]
- Why Copyright? Michael Geist at the University of Calgary (source: The Distant Librarian, 04/04/08)
- What Can You (Legally) Take From the Web? (source: IEEE Spectrum)
- Tendances récentes dans le domaine de la gestion numérique des droits (2004)
- DRM and libraries (ALA)
- Digital Rights Management (université d'Ottawa, Canada)
- Rights Management and Digital Library Requirements (Ariadne, n° 40, juil. 04)
- Managing IPR in Digital Learning Materials: A Development Pack for Institutional Repositories (TrustDR)
- Federated Digital Rights Management. A Proposed DRM Solution for Research and Education (D-Lib, vol. 8, n° 7-8, juil.août 02)
- Copyright Investigation Summary Report (pdf) (RLG, mars 08)
- DRM Watch
- Dernier rapport en date de la WIPO (pdf) (11/04/08)
> Sessions "Models, Architectures & Frameworks" (02/04/08)
Manakin: Lessons Learned
Où il a été question de Manakin, interface utilisateur pour DSpace. Le produit a été lancé à l'occasion de l'OR 2007. L'outil offre la possibilité de paramétrer un unique look-and-feel (au niveau des thèmes, du branding) et une gestion modulaire.
[Présentation] (pdf)
The aDORe Federation Architecture
Où il a été question de l'architecture aDORe (développé par l'équipe de Van de Sompel à Los Alamos) qui vise à faciliter une manière unique pour des applications clientes de découvrir et d'accéder au contenu de dépôts distribués, fédérés. Ce projet concerne des dépôts gérant des volumes importants de données, mesurables en millions d'items (si vous devez manipuler un seul dépôt et quelques milliers d'objets, ce n'est pas pour vous).
[Présentation] (pdf)
[Voir aussi:] pre-print déposé sur arXiv (01/04/08)
The Key Role of Registries and Registry Standards in the Transition to a Federated Network of Repositories
Où il a été question de réseaux fédérés de dépôts institutionnels et de la notion de registries (si quelqu'un a une traduction française acceptable), à savoir, si j'ai bien compris: la possibilité pour les dépôts qui participent à la fédération d'"enregistrer" des collections auprès d'une instance commune qui les gère. Il s'agit d'un mécanisme "machine-to-machine".
Où il a été question d'ORCA (Online Research Collections Australia), une application concrète de ce principe.
Où il a été aussi question de la norme ISO2146 qui fournit un modèle permettant les objets et les éléments nécessaires à la mise en place fédérée de ces "registres".
[Présentation] (pdf)
[Voir aussi:]
- ISO 2146 Project (Registry Services for Libraries and Related Organisations)
- Online Research Collections Australia (ORCA)
- APSR Wiki (Australian Partnership for Sustainable Repositories)
- Automating Registration of Digital Preservation Copies: The Place of Registries in the Digitization Workflow (source: Liber Quarterly, vol. 18, n° 1, 2008)
> Sessions "Usage" (02/04/08)
Repository Statistics: What Do We Want to Know?
Où il a été question de l'application IRStats de l'université de Southampton (EPrints). Et des questions liées aux citations, au facteur d'impact.
Où le besoin de statistiques plus spécifiques a été exprimé, dans l'optique de fournir une sorte de service de monitoring pour les auteurs afin qu'ils puissent déterminer l'impact de leur travail à travers différentes applications (listes de discussion, rapports, blogs, etc.).
[Présentation] (pdf)
MESUR: implications of usage-based evaluations of scholarly status for open repositories
Lire ici
[Présentation] (pdf)
> Sessions "Users Group: Fedora" (03-04/04/08)
Où il a été question, lors de l'introduction de Sandy Payette, des derniers développements en cours autour de Fedora, ainsi que d'une mise à jour de certains aspects techniques liés à l'open access, à la gestion des données, à l'e-recherche, à la conservation, à l'archivage; où l'on a parlé d'API, SOAP, REST, SWORD, RDF Query, Atom, ORE.
Où il a été question de conservation:
- SOAPI (pdf), qui permet l'implémentation de workflows automatisés ou semi-automatisés gérant la conservation de composants complexes;
- REMAP/iCalendar (pdf), qui permet notamment la gestion d'un système d'alertes (via iCalendar) par email ou fils RSS, accompagnant les différentes étapes d'un objet, à partir d'un espace de stockage privé vers le dépôt;
- Fabulous (pdf), qui permet aux gestionnaires de dépôts de gérer du contenu en permettant des modifications sur des ensembles d'objets et de datastreams.
Où il a été question de datasets:
- NJVid (pdf), un portail de ressources vidéos à destination des enseignants, des étudiants, etc., composé de différentes institutions, les vidéos proposées peuvent être annotées;
- capture de vidéoconférences (pdf) à l'UHI Millennium Institute (Ecosse), permettant de les stocker et de les partager dans un contexte d'e-learning (VLE).
Où il a été question de recherche:
- SRW/U-eSciDoc (pdf), un outil basé donc sur le standard SRW/U, développé en Allemagne, disponible en open source, permettant l'indexation de différents formats;
- recherche intégrée (pdf), basée sur Fedora et Summa, ce type de recherche permet d'interroger des ensembles de données hétérogènes sur base d'un seul langage d'interrogation, ranking et facettes possibles, les résultats sont présentés de manière uniforme, bien que provenant de sources différentes;
- filtrage des résultats (pdf), dans le cadre d'eSciDoc et RepoMMan, création d'index différents correspondant à des groupes d'utilisateurs différents, les résultats étant affichés en fonction de l'index choisi et donc du groupe auquel on appartient, d'où la nécessité de gérer les droits en fonction des groupes d'utilisateurs et des objets auxquels ils ont accès ou pas (cf. XACML), principes reposant sur les trois types de filtrage suivants: post-search, in-search, pre-search;
- différents objets/différents outils de recherche (pdf), réflexions menées à l'université de l'Indiana (E.-U.).
Où il a été question des interfaces utilisateurs:
- Fez/Fedora (pdf);
- Easy On Fedora (pdf), un outil de self-archive pour les sciences humaines;
- Plone (pdf);
- Muradora (pdf), gestion fédérée des identités, gestion d'accès flexible (politiques d'accès au niveau de la collection, de l'objet), support XACML, Shibboleth.
Voir aussi les autres sessions: architecture, case studies, programming, semantic technologies.
> Sessions OAI-ORE (04/04/08)
Où il a été question de ce nouveau modèle d'agrégation des ressources web. Pour illustrer le point de départ, les auteurs utilisent cette métaphore: prenons les étoiles (les ressources) regroupées en constellations (les agrégations de ressources). Idéalement, déclarent-ils, l'information scientifique/académique pourrait être vue comme un workflow global à travers l'ensemble des dépôts dans le monde. Cependant, les contraintes de la réalité et des processus de création et de diffusion de l'information scientifique imposent de trouver des moyens plus prosaïques, reposant sur des concepts existants. En effet, les architectures web peuvent "communiquer" avec les ressources et les URIs, pas avec les dépôts en tant que tels. Le principe est donc d'utiliser ces URIs pour créer nos fameuses agrégations. Comment, néanmoins, délimiter les "frontières" des agrégations de ressources? Nous avons pour cela besoin d'autres URIs pour ces agrégations: d'où la notion de resource map qui identifie et décrit les agrégations.
Les présentations sont accessibles ici:
- ORE Motivation and Context
- Abstract Data model
- Open Issues
- Experiments and Prototypes: [1] [2] [3] [4] [5] [6] [7]
- Serializations
- Discovery
(source: OAI-ORE Open Meeting, Johns Hopkins University, 03/03/08)
[Voir aussi:]
- OAI-ORE à l'OAI5 (avril 2007) (présentations + vidéo)
- Cool URIs for the Semantic web (W3C, 01/04/08)
- New RDFa Primer (W3C, 2006)
...
Toutes les présentations sont disponibles ici.