Depuis une vingtaine d'années, des bibliothécaires et des spécialistes en recherche de l'information ont effectué des études sur l'opportunité d'enrichir les notices bibliographiques par les tables de matières. Du projet novateur SAP (Subject Access Project) effectué en 1977 [cf. la bibliographie 1], à l'étude de PALINET 1996 [16], une cinquantaine de travaux ont été publiés sur ce sujet [10]. Nous pensons qu'il y a trois raisons principales qui justifient l'enrichissement des catalogues en lignes par les tables de matières :
La difficulté de la recherche par sujet dans les catalogues en lignes est bien connue.
L'un des facteurs qui influe d'une façon importante sur la pertinence de l'accès sujet est l'insuffisance du nombre de vedettes matières par notice. Alors que dans les bases de données bibliographiques, le nombre des descripteurs par notice se situe entre 10 et 20 ; dans les OPACs il est inférieur à deux. Sur un échantillon de 900 notices bibliographiques du catalogue de l'ENSSIB, nous avons trouvé 1,47 de vedettes par notices :
Deux directions sont envisagées pour atténuer ce problème : la première est l'enrichissement des catalogues par des tables de matières, des résumés et des notes. La seconde solution consiste à augmenter le nombre de vedettes matières par notice.
Le butinage, qui était déjà fort prépondérant quand il y avait les catalogues en papier, l'est toujours avec l'introduction des OPACs [7]. Lipetz [12] a constaté que les utilisateurs se servaient des catalogues imprimés pour savoir ou localiser physiquement les livres susceptibles de les intéresser. C'est souvent en naviguant sur les étagères et rayons des bibliothèques et en ayant le livre dans les mains, que les lecteurs décident si les livres trouvés correspondent à leurs besoins.
Le catalogue n'est plus un outil de recherche, mais un outil de localisation. Selon cet auteur l'une des raisons qui explique cette pratique est le manque d'informations qui donnent un aperçu global du document.
Cette pratique n'a pas évolué avec l'introduction des catalogues en lignes. Les usagers considèrent toujours le butinage dans les étagères comme une stratégie de recherche principale.
Une oeuvre de collaboration est un ouvrage qui contient deux ou plusieurs parties écrites par plusieurs auteurs. Ce type d'ouvrages est en général mal indexé.
Les livres contiennent beaucoup de parties qui ne sont pas pleinement représentées à travers les points d'accès des catalogues. Pourtant, souvent ces parties sont succinctement décrites dans les tables des matières. Identifier ces parties devrait fournir un point d'accès supplémentaire à l'information [15][18].
Sur un corpus de 4 098 de livres, Hoffmann [9] indique qu'approximativement un livre sur cinq est une oeuvre de collaboration.
Comme ces études concernent soit des bibliothèques publiques, soit des bibliothèques universitaires, nous avons voulu connaître le pourcentage d'oeuvres de collaboration dans une bibliothèque spécialisée comme celle de l'ENSSIB.
Nous avons analysé 420 livres concernant les domaines de l'informatique documentaire et celui de l'économie de l'information.
Nous avons trouvé que 109 livres sont écrits par plusieurs auteurs (soit presque 26% de l'échantillon). Le nombre moyen de parties par document est 18.
Certains auteurs signalent que divers éléments, tels que la langue de publication, la date de publication, la politique d'acquisition suivie, influent sur le nombre d'oeuvres de collaboration.
En tenant compte de ces critères, on peut penser que le nombre moyen d'oeuvres de collaboration dans une collection varie de 12 à 20 %.
Pour initier un projet d'enrichissement, il est nécessaire d'aborder ces trois questions :
Pour des raisons économiques, il est nécessaire pour chaque bibliothèque d'établir un ensemble de critères pour le choix des livres à enrichir. Ceux-ci sont fonction du fonds de chaque bibliothèque, de la politique d'acquisition et de catalogage.
Il nous semble intéressant de montrer que suivant les critères choisis pour décider si les ouvrages doivent être enrichis ou non, le taux de livres candidats à l'enrichissement varie considérablement. Ainsi, à l'université de Carnegie Mellon [14], ce taux est de 7,85 % alors que dans le projet ESP de la bibliothèque ADFA [3] [4] et de Weintraub [18], ils sont respectivement de 25 % et 23 %.
Voici un exemple de critères choisis :
On n'enrichira pas les notices en fonction des critères d'exclusion suivants :
Deux méthodes sont utilisées, l'une est manuelle, l'autre est semi-automatique.
La première méthode consiste à extraire des mots ou phrases des tables de matières et de les inclure dans les notices bibliographiques correspondantes. Dans le projet ESP (Enriched Subject Program) de la bibliothèque de l'ADFA (Australian Défense Force Academy), par exemple, l'enrichissement de 40 000 notices (sur une période de 5 ans) a généré presque 1 500 000 mots clés. Les termes extraits des tables de matières ne remplacent pas les vedettes matières mais les complètent.
Au lieu d'extraire des termes des tables de matières et de les inclure dans les notices, des projets plus récents, notamment RIDDLE (Rapid Information Display and Dissémination in a Libraiy Environment) [8] et PALINET/MONO-TOC tentent d'automatiser une partie ou la totalité de la chaîne de traitement des tables de matières.
Le projet européen RIDDLE étudie la faisabilité d'utiliser des techniques de numérisation pour capturer les sommaires de journaux scientifiques et de les insérer dans un catalogue en ligne. Nous avons identifié quatre étapes importantes :
Le projet PALINET/MONO-TOC a pour ambition de définir une chaîne de production des tables de matières de monoraphies. Parmi les aspects étudiés dansce projet, on trouve les questions relativesau problème du droit d'auteur. le calculdes coûts de production et de vente, lecontrôle de qualité ainsi qu'une étude demarché sur l'existence de clients pour cetype de service.
La chaîne de numérisation du projet PALI-NET/MONO-TOC est composée de quatre étapes principales :
Les tables de matières ainsi numérisées sont envoyées aux bibliothèques participantes dans un format compatible avec ceux de leurs catalogues.
L'un des éléments importants d'un projet d'enrichissement de catalogue en ligne avec des tables de matières est l'estimation du coût. Celui-ci dépend essentiellement du facteur temps.
Pour l'extraction des mots des tables de matières (méthode manuelle), la majorité des études que nous avons consultés montre qu'il varie entre 15 à 20 mn.
Ainsi, dans le cas du projet ESP, on aboutit à ces résultats :
En ce qui concerne la numérisation totale des tables de matières, l'étude effectuée dans le projet PALINET/MONO-TOC montre que le temps nécessaire pour le traitement de 1 000 tables de matières est de 332 heures, c'est à dire environ 20 mn par titre.
Une fois les tables de matières numérisées, c'est la fonction édition (correction d'erreurs et mise en page) qui est la plus longue. Ce coût varie d'une bibliothèque à une autre et est fonction de plusieurs facteurs (matériels, personnels,...). On peut estimer ce coût entre 20 F et 30F par table des matières.
Les initiateurs du projet RIDDLE ont établi un ensemble de critères permettant de comparer le coût des méthodes manuelles et celui des méthodes semi-automatiques.
Les parties d'un document ont chacune plus ou moins de valeur pour la recherche d'informations. Afin d'évaluer la pertinence des tables de matière pour la recherche d'informations, la majorité des études d'évaluation que nous avons consultées utilise des critères de performance tels que le rappel (1) et la précision (2) . Seule une étude a utilisé un autre critère qui est celui du taux de circulation des ouvrages dont les notices bibliographiques sont enrichies.
En 1982, Settel & Cochrane [17] conduisent une étude pour déterminer si en ajoutant des mots et des phrases extraits des tables des matières, cela améliore l'accès au sujet et le taux de rappel pour l'utilisateur. Deux types d'enregistrements sont comparés :
Le deuxième type d'enregistrement double le taux de rappel sur le domaine des sciences sociales et le triple en sciences humaines par rapport au premier type d'enregistrement. Ces auteurs en concluent donc que l'addition de termes extraits des tables des matières augmente significativement le taux de rappel, et donc évite le silence.
Si les tests effectués par Dillon [5] et l'équipe d'ADFA confirment cet accroissement du taux de rappel, ils notent cependant une légère diminution du taux de précision :
Souvent les utilisateurs rencontrent des difficultés pour sélectionner un document. En effet les notices bibliographiques contiennent très peu d'informations sur le contenu du document ( auteur, sujet, titre, éditeur, etc.). L'enrichissement des notices bibliographiques par les tables de matières peut aider l'utilisateur à mieux sélectionner les documents. Les tables de matières donnent à la fois une vue d'ensemble et permettent d'identifier les parties du document. L'utilisateur ayant la possibilité de visualiser la table de matières d'un ouvrage, pourrait mieux juger à l'écran la pertinence de ces références sans aller aux rayons. Lorsqu'on sait que presque le quart des collections des bibliothèques universitaires en France ne sont pas en libre accès, on mesure l'importance de cet enrichissement.
Cette difficulté de sélectionner les documents grandit lors d'un accès à distance (par Telnet ou par le Web)
L'accès direct à de grandes collections numérisées pose le problème de la surabondance d'informations. Nous pensons qu'il est nécessaire d'avoir une étape intermédiaire aussi bien pour effectuer des recherches, que pour le choix d'un document. Les tables de matières peuvent jouer ce rôle. Le lecteur peut ainsi accéder à des parties ou à la totalité du document numérisé. Pour les ouvrages dépourvus de tables de matières, des prototypes récents tentent d'extraire d'une façon automatique des résumés de textes qui peuvent être représentés graphiquement [11].
L'analyse des diverses études nous montre qu'il y a d'une part, une forte amélioration du taux de rappel, donc une meilleure circulation des livres et une meilleure exploitation des fonds des bibliothèques ; d'autre part, les utilisateurs n'ont plus besoin d'avoir le livre en main pour décider de la pertinence d'un livre. Cependant, entreprendre un projet d'enrichissement des notices est une entreprise complexe qui nécessite une meilleure précision des critères de choix, une méthodologie d'enrichissement bien définie, et enfin une évaluation du coût de faisabilité.
A l'image du projet PALINET/MONO-TOC, il serait intéressant que ce travail soit mené par un groupe de bibliothèques pour que le coût de production diminue.
Il est néanmoins indispensable d'effectuer d'autres études pour répondre à la question épineuse de précision.