Index des revues

  • Index des revues
    ⇓  Autres articles dans la même rubrique  ⇓

    La numérisation des documents graphiques

    Enjeux techniques et financiers

    Par Pierre- Yves Duchemin, conservateur Bibliothèque nationale de France

    La numérisation est un concept à la mode aujourd'hui, mais un projet de numérisation de documents graphiques implique de nombreuses opérations techniquement complexes et coûteuses si l'on désire un résultat de haute qualité. Pourtant, les bibliothèques et les centres de documentation s'intéressent de plus en plus à la numérisation de tout ou partie de leurs collections, et il ne fait pas de doute que, dans un avenir proche, grâce aux progrès de la normalisation et à la baisse des coûts de numérisation et de stockage (qui, rappelons-le, sont toutefois loin d'être négligeables), la numérisation va devenir une technique couramment utilisée dans la grande majorité des types d'établissements. Le bibliothécaire qui désire entreprendre une campagne de numérisation doit savoir que c'est une technique qui permet, à court, moyen et long termes, de répondre à plusieurs objectifs importants, sous réserve que l'on ait au préalable, une fois de plus, soigneusement défini les besoins.

    Buts de la numérisation

    Mettre en oeuvre un projet de numérisation d'images fixes suppose que plusieurs questions importantes ont trouvé une réponse, à savoir « pourquoi la bibliothèque souhaite-t-elle proposer des images numériques à ses utilisateurs ? » et « de quelle sorte et de quelle qualité d'imagerie numérique la bibliothèque a-telle besoin ? ».

    Les principales finalités d'une campagne de réalisation d'images numériques sont de :

    • * Permettre l'amélioration de la préservation et la conservation des documents originaux : la numérisation s'avère un excellent moyen de sauvegarde de documents rares ou précieux, fragiles ou encombrants ; elle permet en effet de réduire notablement, voire de supprimer totalement, la consultation des documents qui ont fait l'objet d'une campagne de numérisation, en proposant à l'utilisateur un substitut électronique.
    • * Permettre l'amélioration des possibilités d'accès aux documents en proposant un substitut électronique à l'utilisateur final : un document numérisé est immédiatement accessible et peut, par ailleurs, être simultanément communiqué à plusieurs utilisateurs. Les documents « de réserve voient ainsi leur communication facilitée et accrue.
    • * Permettre l'amélioration de la consultation des documents : un programme de numérisation autorise parfois une meilleure lecture du document que celle offerte par l'original ; on perd bien évidemment le contact avec le document original et son support, mais on gagne la possibilité de « zoomer », d'« entrer au coeur du document et d'obtenir une finesse de détails qu'on ne pourrait espérer à partir de l'original. Dans le cas d'une lecture plus savante », il est ainsi beaucoup plus facile d'effectuer des comparaisons entre deux documents, voire de récupérer dans un « panier plusieurs extraits ou détails d'images qui faciliteront la recherche par leur juxtaposition.
    • * Favoriser la valorisation des documents : une campagne de numérisation peut être l'occasion de mettre en valeur un fonds ou une collection prestigieuse de documents rares parfois non publiés (collection particulière, legs important, collection précieuse de documents provenant de confiscations révolutionnaires, fonds local, etc.). Cette valorisation pourra se concrétiser par une édition ou bien sous forme papier, ou bien sous forme de disque optique compact si l'on vise un large public.
    • * Permettre la communication du document hors de l'établissement grâce aux réseaux de télécommunications en fournissant un accès à distance : la transmission à distance est ainsi l'un des gros intérêts d'une collection de documents numérisés, car elle met la bibliothèque en mesure de fournir rapidement, en ligne ou en différé, une copie électronique du document à un autre établissement. La transmission à distance doit bien sûr être réciproque pour permettre à l'utilisateur de consulter et de comparer en un seul lieu des documents conservés dans des sites différents.

    Par ailleurs, une campagne de numérisation doit-elle répondre à des objectifs purement documentaires ou doit-elle également répondre à des besoins scientifiques, voire artistiques ? Il est possible de considérer les documents électroniques comme un complément d'information à des ouvrages imprimés ; dans ce cas, la sélection des documents à numériser se fera dans le but de créer une unité thématique documentaire de référence d'images électroniques numérisées. Il est également possible de considérer qu'il n'est pas indispensable que les projets mis en oeuvre soient un complément à un support imprimé ; dans ce cas, il n'y aura pas besoin d'effectuer une sélection de documents dans une collection donnée : la collection elle-même sera considérée comme un ensemble intellectuel ou artistique et le projet conservera son intégrité documentaire. La bibliothèque doit considérer que les fonds spécifiques de ses collections ne sont pas des éléments abstraits d'information, mais qu'ils ont une signification et un intérêt intrinsèques.

    Des images numériques pour quels utilisateurs?

    La réponse à la question consistant à savoir quelle catégorie de public est visée par un programme d'images numériques conditionne les moyens techniques à mettre en oeuvre, les taux de numérisation, les processus d'action, le budget, les postes de travail, les accès publics en ligne, etc. D'ordinaire, des enquêtes et des sondages peuvent donner une assez bonne image du public fréquentant une bibliothèque, et on peut recourir à cette solution pour tenter de définir un public potentiel. Il est également possible de penser que la fonction crée le besoin et que, la campagne de numérisation étant nécessaire pour la bibliothèque, par exemple pour des raisons de préservation des documents, les utilisateurs ne manqueront pas d'utiliser les documents numériques.

    Que numériser ?

    Il ne s'agit pas de se lancer dans une campagne de numérisation parce que c'est à la mode, mais parce qu'on en a besoin ; de toute manière, le coût total et les problèmes techniques d'un projet de numérisation devraient normalement rebuter ceux dont la motivation n'est pas solidement justifiée... Le bibliothécaire a ainsi à effectuer un choix dans ses collections. Il est en effet pratiquement impossible d'envisager une numérisation intégrale des collections : on pourra choisir les documents les plus intéressants ou les moins connus, ce qui peut s'avérer un excellent choix en ce qui concerne la conservation, la communication, la valorisation et les publications, ou dans les collections spécialisées, et, en particulier en raison de leur taille, les documents cartographiques, certaines estampes ou certains manuscrits, qui soulèvent des problèmes tant pratiques que techniques et budgétaires difficiles à résoudre pour pouvoir obtenir une bonne qualité des images numériques.

    Il faut également veiller à la cohérence interne de la collection numérisée envisagée, à ses futurs développements, et conduire dès l'origine une réflexion pour définir les projets qui permettront d'accroître la cohérence intellectuelle et la couverture des collections numérisées. Pour étudier la possibilité de proposer des images électroniques à ses utilisateurs, l'établissement doit bénéficier de crédits spécifiques pour ces projets, lancer des études de faisabilité et réaliser des tests.

    La sélection des documents à numériser devrait s'effectuer selon trois critères principaux :

    • la valeur documentaire, et parfois esthétique, des collections ;
    • l'aspect préservation et conservation des documents originaux ;
    • la mise en valeur des collections en les ouvrant à un plus large public.

    Les procédures de réalisation

    Une nouvelle question apparaît : la numérisation doit-elle être effectuée à partir du document original ou à partir d'un substitut photographique ? Globalement, ce n'est pas un problème technique sauf pour les documents de très grand format : il est possible aujourd'hui de numériser à plat ou en trois dimensions des documents mesurant jusqu'à 4 m2. Les tests montrent que la numérisation d'un inversible couleur de haute qualité donne les mêmes résultats que celle d'un document de taille moyenne, mais qu'un cliché noir et blanc offre un piqué deux fois supérieur à celui d'un Ektachrome.

    La réponse dépend souvent du document lui-même. Si, par exemple, un projet de numérisation est composé de photographies anciennes qui n'excèdent pas 9 x 13 cm ou 13 x 18 cm, les tests montrent qu'on obtient un meilleur résultat si la numérisation est effectuée à partir d'un substitut photographique de bonne qualité plutôt qu'à partir du cliché original : les photographies anciennes sont fragiles et cassantes, certaines ont pu virer au brun ou au gris clair, et un substitut photographique de bonne qualité permet de rehausser le contraste et la définition du cliché lui-même, donc d'obtenir une image numérisée de meilleure qualité. D'autres documents soulèvent le problème inverse. On peut conserver des documents qui mesurent 4,80 x 3,40 m : il est bien évident qu'ils ne peuvent être numérisés directement et qu'on ne peut faire l'économie d'une campagne photographique (image générale et détails). Les experts en conservation affirment qu'un inversible couleur réalisé il y a cinq ans n'est plus parfait et qu'un inversible couleur réalisé il y a vingt ans est souvent inutilisable, même s'il a été conservé dans un environnement protégé et favorable ; il est toutefois possible, dans certains cas, d'appliquer à ces documents des traitements de correction chromatique qui permettent l'économie d'une nouvelle campagne photographique. Il est, par ailleurs, également admis que la durée de vie d'une microfiche ou d'un cliché noir et blanc peut atteindre une centaine d'années. Dans les collections de supports photographiques des bibliothèques, il est souvent à craindre que les substituts photographiques, dont les plus anciens peuvent remonter à une cinquantaine d'années, n'aient été réalisés dans une optique de conservation et non dans une optique de numérisation qui, évidemment, n'existait pas encore.

    Lors de la sélection des projets, la nature, la couverture et la qualité des reproductions photographiques existantes sont bien évidemment un critère de choix important, d'un point de vue à la fois technique et financier : une campagne photographique coûte cher, mais il serait stupide de vouloir numériser des documents de grande taille à partir de diapositives 35 mm 24 x 36 mm ou de microfiches. Les tests montrent que les meilleurs résultats sont obtenus à partir de Cibachrome 5 pouces, support malheureusement assez coûteux et assez rare dans les bibliothèques françaises, mais qui offre un piqué bien supérieur à celui des inversibles courants.

    La numérisation de documents graphiques à haute résolution permet à l'utilisateur d'entrer dans l'image numérique, d'effectuer un zoom sur un détail et, éventuellement, de sauvegarder le résultat de sa recherche sur une disquette s'il le désire. Cette façon de faire, si elle garantit une grande qualité, coûte cher et nécessite des moyens techniques plus importants : les taux de numérisation requis pour des collections spécialisées d'images fixes couvrent un éventail allant de 1 000 x 1 500 points par pouce (dpi) à 4 000 x 6 000 points par pouce pour les documents très détaillés, mais 90 % des cas sont résolus avec un taux de 2 000 x 3 000 points par pouce. Quelques détails particulièrement difficiles peuvent parfois nécessiter un taux de résolution atteignant 6 000 x 8 000 points par pouce (rappelons pour mémoire qu'une page de texte est généralement numérisée au taux de 300 points par pouce, norme internationale pour la télécopie). La consultation d'une image numérique nécessite un écran graphique 21" et une carte vidéo appropriée. Si la consultation d'une image numérique sur un écran graphique ne pose aucun problème et permet la lecture des moindres détails sur un document, la difficulté est la taille gigantesque des fichiers à traiter : un document graphique ancien, c'est-à-dire un document généralement peu détaillé, peut atteindre en sortie de numérisation 2 Mo..., même si l'utilisation d'une norme de compression permet de le réduire à environ 200 ko (normes de compression JPEG et JPEG2 pour l'image fixe couleur, MPEG pour l'image animée ou HPEG pour le multimédia).

    Tout au long de la chaîne de travail, on doit également se préoccuper des différentes sortes de supports physiques qui, évidemment, ne sont pas gratuits : depuis le support d'enregistrement, le support de transfert, le support servant à la fourniture du document numérique, le support de stockage pour la consultation jusqu'au support final utilisé pour la conservation des images numériques, on peut rencontrer aussi bien des bandes magnétiques que des disques optiques compacts, en passant par des disques durs ou des disques optiques numériques WORM (write once read many). Le support d'exploitation, c'est-à-dire généralement le disque d'un ordinateur dédié, le serveur », n'est pas le support utilisé pour la consultation à distance, car la qualité de l'image numérique dépend du matériel utilisé. Une résolution de 1 000 x 1 500 points par pouce sur un écran TV dit « haute définition » est suffisante si le document original n'est pas très grand ni trop détaillé. Dans certains cas, afin d'éviter toute piraterie intellectuelle, le support de consultation pourra présenter une qualité dégradée : un document de travail ne requiert pas la même qualité qu'un document prévu pour une publication. Le dernier point, mais non le moindre, qu'il faut prendre en compte et toujours garder à l'esprit est que les données seront toujours plus importantes que les supports physiques : le support peut évoluer, mais les données restent, notamment si elles possèdent une structure normalisée et sont conservées dans un environnement favorable.

    Catalogage et indexation

    Il serait inutile d'essayer de proposer des images numériques de documents graphiques ou textuels sans catalogage associé. Dans ce cas, l'utilisateur préférerait sans doute feuilleter des albums photographiques plutôt que d'essayer de retrouver un document sur un disque optique compact ou dans une base de données sans aucune indexation.

    Doit-on cataloguer les images numériques à l'unité ou bien par lots ? La réponse logique devrait pouvoir être : tous les documents sont catalogués à la pièce. Cela semble évidemment une solution idéale que de cataloguer chaque document comme une unité documentaire séparée et de créer des liens entre les enregistrements informatiques, mais elle est évidemment beaucoup plus coûteuse. Si les documents originaux ont déjà été catalogués à l'unité dans une base de données bibliographiques, le problème est plus simple : il suffit dans ce cas d'ajouter une adresse logique aux descriptions bibliographiques et de créer un lien réciproque afin d'obtenir aussi bien l'image numérique à partir de la notice de description bibliographique dans la base de données que la description textuelle à partir de l'image numérique.

    Le choix d'un catalogage par lots peut s'avérer une solution suffisante si chaque document est au moins identifié par une courte légende, une cote et une adresse logique dans la base de données. Dans ce cas, l'utilisateur effectue sa recherche dans la base de données bibliographiques, trouve une description contenant plusieurs images numériques, obtient une mosaïque d'imagettes qu'il peut sélectionner et afficher en plein écran.

    Faut-il encore respecter les ISBD, les formats MARC et les listes raisonnées d'indexation matières quand l'hypertexte, XML et le « langage naturel » font leur apparition ?

    En l'état actuel de la situation, il semble qu'il faille fermement répondre par l'affirmative ! En effet, les formats MARC et RAMEAU, version française de LCSH, sont encore des outils de portée internationale pour longtemps, même à travers une structure SGML ou HTML, les protocoles TCP/IP et l'interrogation universelle par Z 39.50.

    Le coût de la numérisation

    Les problèmes de coût sont une question sérieuse : le coût total d'un projet de numérisation peut être très élevé, tout particulièrement si l'on a choisi des taux de résolution importants, même si la numérisation aujourd'hui coûte quatre fois moins cher qu'en 1995 et deux fois moins cher qu'en 1997. En outre, si l'on traite des collections quantitativement peu importantes, le coût de la numérisation d'une image peut être deux fois moins élevé que le coût d'un substitut photographique sur microfiche. On doit cependant garder à l'esprit que le coût d'une campagne de numérisation ne comprend pas la seule numérisation proprement dite, mais couvre également les éventuels coûts de restauration, les éventuelles campagnes photographiques, le catalogage, l'indexation, les différents supports physiques, les postes de travail spécifiques munis d'écrans graphiques haute définition, etc.

    Pour compenser la faiblesse d'une ligne spécifique dans le budget, il est possible d'essayer de trouver des partenariats avec des compagnies privées, ce qui nécessite la confection de jeux de tests bien conçus et la signature d'un contrat et d'une convention d'exploitation des données numériques.

    Problèmes juridiques

    Ce sont, presque plus que les problèmes techniques et financiers, les plus importants à résoudre dans le cas d'un projet de numérisation. En effet, il importe de respecter la loi du 1er juillet 1992 modifiée, portant Code de la propriété intellectuelle. En France, la situation juridique sur l'utilisation des images numériques n'est pas simple : les lois de propriété et de protection intellectuelle sont très strictes, et on doit toujours rechercher d'éventuels ayants droit. C'est la raison pour laquelle il est souhaitable de concevoir des projets autour de documents anciens, pour lesquels n'existent pas de problèmes de communication ou de reproduction puisqu'ils appartiennent au patrimoine de la bibliothèque depuis des années, voire des siècles. La période officielle de 70 ans empêche ainsi l'établissement d'utiliser des documents qui ne sont pas encore tombés dans le domaine public. En ce qui concerne les documents de moins de 70 ans, la solution consistera à rechercher les ayants droit et à signer une convention spécifique qui sera bien rarement accordée à titre gracieux. Par ailleurs, la loi française est très stricte en ce qui concerne la propriété intellectuelle et l'usage du patrimoine national.

    Se pose alors un autre problème qui n'a rien d'informatique : si la bibliothèque doit payer des droits d'utilisation électronique de certains documents, doit-elle ou non faire supporter tout ou partie de ces coûts à l'utilisateur ? La plupart des établissements confrontés à ce problème tentent de chercher un compromis entre un coût raisonnable pour l'utilisateur et la redevance versée aux ayants droit... et un relatif équilibre financier pour la bibliothèque.

    Par ailleurs, la bibliothèque devra prendre garde à ne pas être elle-même victime du « photoco-pillage électronique : les imprimantes dites « à sublimation » sont certes encore très coûteuses pour être des équipements d'usage courant, mais les produits qu'elles fournissent sur papier spécial brillant sont dignes d'un tirage photographique de qualité et ne peuvent faire l'objet d'un service gratuit exonéré de droits de reproduction. Sans vouloir chercher à atteindre une qualité aussi professionnelle, les imprimantes couleur à jet d'encre disponibles aujourd'hui sur le marché permettent d'effectuer sur du papier ordinaire à 80 g des tirages qui constituent des documents de travail d'excellente qualité et qui sont d'un coût beaucoup plus abordable.

    Les réseaux

    Le développement récent d'Inter-net soulève de nouveaux problèmes : les accès et communications à longue distance ne sont pas faciles à gérer d'un point de vue technique, pratique et juridique. L'établissement doit définir clairement ses besoins. Par exemple :

    • Combien d'utilisateurs sont susceptibles de se connecter simultanément ?
    • Quelle qualité d'image numérique doit être disponible sur le réseau ? Il est tout à fait possible de consulter un document à un taux de définition très élevé à l'intérieur de l'établissement et d'offrir une image numérique de qualité inférieure sur le réseau ; cette question est déterminante et contraignante si l'on considère les flux de données et les temps de réponse, ce qui a une incidence importante sur les coûts.

    Postes de travail spécifiques

    La consultation d'images numérisées nécessite des postes spécifiques, souvent dédiés à cette seule application : en effet, les écrans graphiques nécessaires sont trop coûteux pour constituer l'équipement standard de la bibliothèque. Par ailleurs, la consultation de documents numérisés nécessite des micro-ordinateurs plus puissants (et dotés d'une mémoire vive plus importante) que ceux utilisés pour la consultation d'un accès public en ligne.

    Annexe

    À titre d'exemple et pour illustrer ce propos, la Bibliothèque nationale de France réalise le projet « 300 000 images numériques », dont près de la moitié provient des départements spécialisés (Arts du spectacle, Cartes et plans, Estampes et photographie, Manuscrits, Monnaies, médailles et antiques, Musique).

    La sélection s'est effectuée selon six critères principaux :

    • la valeur patrimoniale des documents ;
    • l'intérêt documentaire, et parfois esthétique, des collections ;
    • la cohérence intellectuelle des collections (notion de fonds, de collection constituée, et non choix d'images) ;
    • l'aspect préservation et conservation des originaux, notamment en ce qui concerne les documents les plus précieux, de grande réserve, de grand format, ou les documents très fréquemment consultés, voire certains incommunicables ;
    • la mise en valeur des collections en les ouvrant à un plus large public, grâce à la possibilité de consultation sur place d'un substitut électronique de qualité, à l'éventualité d'une transmission à distance ou d'éditions électroniques ;
    • le statut juridique des collections qui, pour la plupart, se composent de documents libres de droits.