Maintenant que les bibliothécaires savent tout ou presque sur la création des documents numériques, de nouveaux thèmes d’étude et de préoccupation se font jour, à commencer par la conservation des données numériques, sur laquelle fleurissent actuellement les articles et journées d’information. La mise en ligne des documents n’a quant à elle suscité que peu de littérature professionnelle : le sujet ne va cependant pas de soi, comme le rappelle le résultat surprenant de l’enquête menée par la mission recherche et technologie du ministère de la Culture : 52 % des documents numérisés par les établissements culturels français ne sont toujours pas en ligne ! C’est dire si les obstacles sont nombreux et les questions multiples.
La journée proposée par l’agence de coopération champenoise Interbibly à la médiathèque de l’agglomération troyenne, le 22 novembre 2007, était donc particulièrement bienvenue.
Elle débuta par une présentation très concrète et détaillée des processus mis en œuvre par la BIUM (Bibliothèque inter-universitaire de médecine) pour sa belle bibliothèque numérique Medic@
C’est donc avant tout le public visé qui détermine les choix de mise en ligne, la navigation et les outils d’accès aux documents. Mais pour quel résultat ? Louis Burle, directeur de la médiathèque de l’agglomération troyenne, affirme tout haut ce qui se murmurait depuis quelque temps : la fréquentation des bibliothèques numériques n’est pas à la hauteur des investissements consentis. Le magnifique site de la médiathèque troyenne
Élisabeth Gautier-Devraux (archives départementales des Yvelines) présentait ensuite des projets de recherche, menés par son établissement en partenariat avec l’Inria (Institut national de recherche en informatique et en automatique) et l’Insa (Institut national des sciences appliquées) de Rennes : les archives des Yvelines bénéficient en effet d’une forte implication du conseil général dans les technologies innovantes. Celui-ci a financé deux thèses, l’une sur la reconnaissance optique des caractères manuscrits (qui, sur des écritures très stéréotypées du XIXe siècle, donne des résultats intéressants mais encore fragiles), l’autre sur la reconnaissance automatique de structures, par exemple pour masquer des données protégées par la loi dans un formulaire administratif. Un autre travail est en cours, sur la transcription automatisée de textes manuscrits cursifs. Un outil collaboratif d’annotations est proposé aux chercheurs. Contrairement aux bibliothèques, qui ont commencé par l’informatisation de leurs catalogues, les archives ont privilégié la mise en ligne de documents primaires : la numérisation des instruments de recherche est en cours.
Enfin, deux prestataires venaient présenter leurs produits : Éric Délot, pour Archimed, proposait un voyage à travers différents portails documentaires mis en place par sa société. Gilbert Tommasi (société BIT) présentait avec beaucoup d’assurance son logiciel d’OCR, dont les performances, paraît-il, dépassent de beaucoup celles du leader mondial du marché : la démonstration, sur des imprimés anciens mêlant plusieurs typographies, semblait en effet convaincante.
Au total, une journée très réussie et pleine d’intérêt, qui répondait à un grand nombre d’interrogations de la manière la plus concrète, tout en ouvrant des perspectives sur des technologies prometteuses. On regrette seulement que les programmes présentés soient, pour l’instant, uniquement en mode image, ce qui n’a pas permis d’aborder la question de l’océrisation et de la structuration des contenus. Il est vrai que la problématique est, pour l’instant, plus « BU » que « patrimoine » – mais qui sait ?