Cataloguing and Classification Quarterly(2004) et de « Le partenariat entre la Bibliothèque nationale de Nouvelle-Zélande et les Maoris », paru dans le
BBF, 2004, no 3.
L’auteur de cet article s’appuie sur l’expérience de Calames, catalogue en ligne des archives et des manuscrits de l’enseignement supérieur, pour dégager des pistes pour le développement de catalogues analogues : indexation et affichage adaptés aux moteurs de recherche, interface de recherche et de consultation à la fois riche et simple d’utilisation, etc. Il propose un modèle de « mashup patrimonial » permettant d’agréger des données dispersées grâce à des catalogues repensés pour favoriser l’interopérabilité et permettre l’exploitation de leurs données par d’autres sites.
Yann Nicolas takes the experience of Calames, the on-line catalogue of university archive and manuscript holdings, as a starting point to look at the possibility of developing similar services, exploring methods of indexing and posting results compatible with search engines, designing a search and display interface that is both rich in informational content and simple to use, and so on. The author puts forward a model of heritage mashups which make it possible to combine data from a number of sources by using catalogues designed to promote interoperability and facilitate the access of other sites to their data.
Der Autor dieses Artikels stützt sich auf die Erfahrung von Calames, Onlinekatalog der Archive und der Handschriften des Hochschulwesens, um den Weg für die Entwicklung analoger Kataloge frei zu machen: an die Suchmaschinen angepasste Indexierung und Anzeige, umfangreiche und gleichzeitig in der Benutzung einfache Such- und Benutzeroberfläche, etc. Er schlägt ein „mashup patrimonial“-Modell vor, das dank überdachter Kataloge die Zusammenfügung verteilter Daten ermöglicht, um die Interoperabilität zu fördern und die Auswertung ihrer Daten von anderen Webseiten aus zu ermöglichen.
El autor de este artículo se apoya en la experiencia de Calames, catálogo en línea de los archivos y de los manuscritos de la enseñanza superior, para despejar pistas para el desarrollo de catálogos análogos : indización y afichaje adaptados a los motores de búsqueda, interfaz de búsqueda y de consulta a la vez rica y simple de utilización, etc. El autor propone un modelo de “mashup patrimonial” que permite agregar datos dispersados gracias a catálogos repensados para favorecer la interoperabilidad y permitir la explotación de sus datos por otros sites.
Calames
Le cœur des données de Calames provient de la numérisation en EAD Arabesques
, publiée par l’Abes (
On le sait désormais, le web est devenu un marché de l’attention, sur lequel une infinité de contenus se disputent une quantité finie d’attention. Les moteurs de recherche sont désormais les places de marché incontournables où se rencontrent les sites et les lecteurs. Google en est la principale. Calames se devait d’y être présent.
Mais que signifie « être présent dans Google ? ». Il ne suffit pas que le site Calames en tant que tel apparaisse dans la liste des résultats d’une requête comme « catalogue manuscrits ». Il faut aller plus loin : une requête comme « mazarine ms 364 » ou encore « Livre de prières de l’abbaye du Mont-Cassin » affiche un lien qui pointe directement vers la notice de Calames décrivant ce manuscrit, et ce dans les dix premiers résultats. D’une certaine manière, Google devient l’inter-face de recherche rapide de Calames (figure 1).
Mais il ne suffit pas de figurer dans la liste de Google, même dans les dix premiers résultats. Il faut encore que Google affiche les informations pertinentes, qui décident l’internaute à cliquer sur le lien qui mène à Calames – ou à ne pas cliquer. En effet, une (trop) bonne indexation dans Google peut aussi être source de spam pour certains utilisateurs. Pensons (exemple attesté !) au malheureux fétichiste qui, après avoir saisi « grosse sein », voit s’afficher le ms 2 900 de la BNU, intitulé «
On l’a vu, les moteurs de recherche ne sont pas loin de faire office d’interfaces de recherche rapide dans Calames. Avec SearchMonkey de Yahoo, le moteur s’occupe aussi de l’affichage court des résultats. Demain, pour peu qu’ils aient accès aux métadonnées, les moteurs permettront aussi d’effectuer une recherche avancée. Ce qu’il restera, peut-être, aux catalogues, c’est l’affichage détaillé d’une notice et surtout le mode de navigation dans le corpus de métadonnées.
Le défi d’aujourd’hui pour un catalogue émanant du monde des bibliothèques est de proposer une interface de recherche et de consultation qui trouve le bon compromis entre la richesse des fonctionnalités et des contenus, d’une part, et la simplicité d’utilisation d’un moteur de recherche, d’autre part.
D’un côté, un site comme Calames doit proposer aux chercheurs des fonctionnalités avancées efficaces qui soient à la hauteur de tout l’investissement qui a été mis dans le catalogage, c’est-à-dire dans la structuration fine de l’information.
D’un autre côté, il faut veiller à ne pas décourager le lecteur en lui imposant une interface dont la complexité ne serait que le reflet mécanique et souvent stérile de la complexité des données elles-mêmes.
Comment approcher un tel compromis ? Bien avant les catalogues patrimoniaux, il existe d’autres sites qui sont à la recherche de modes de recherche et de consultation assez fins et efficaces pour satisfaire l’internaute aux habitudes et aux exigences alignées sur sa pratique de Google. Il s’agit des catalogues commerciaux, des sites de vente. Même s’ils ne relèvent ni du même registre ni de la même stratégie que les catalogues de bibliothèques, certains de ces sites commerciaux sont des sources d’inspiration majeures, tant sur le plan de l’ergonomie que sur le plan de l’exploitation avancée des données disponibles. Ceci ne vaut pas seulement pour les sites du secteur culturel marchand, comme Amazon, mais bien au-delà, quelle que soit la nature des articles. Ainsi, le site Endless a pu servir de référence pour le développement de l’inter-face de Calames. Ce site de vente de chaussures est une des plus belles bibliothèques numériques qui soit. Ironie de l’histoire : nous avons découvert en chemin que ce site était une filiale de… Amazon.
Une des fonctionnalités qu’on a vue migrer du web commercial vers le web patrimonial est la « recherche à facettes ». Il s’agit d’un mode de recherche qui permet de réduire progressivement la liste des résultats, en apposant des filtres successifs à partir d’une recherche initiale très générale. Ainsi, dans Calames, le lecteur peut commencer par une recherche large sur « Lyon », obtenir des centaines de résultats, puis restreindre ce nombre en utilisant la facette Bibliothèque, puis la facette Langue, puis la facette Propriétaire précédent. À chaque étape, il est sûr d’obtenir au moins un résultat. C’est une manière efficace d’exploiter les index spécialisés de la recherche avancée, systématiquement délaissée par les utilisateurs (figure 4).
Désormais, les bibliothèques ne sont plus un continent à part sur le web. Leurs technologies, leurs formats de données, et surtout leurs utilisateurs sont les mêmes que ceux de n’importe quel site commercial ou grand public. Mais le web ordinaire ne se limite pas à l’expérience minimaliste de Google ni au bric-à-brac stroboscopique des grandes surfaces virtuelles. Le web marchand (Amazon, Endless, iTunes d’Apple) et le web co-opératif (Flickr, Delicious, GovTrack. us) regorgent de solutions créatives et diversifiées aux défis du web patrimonial. Pour valoriser et diffuser leur contenu original, les catalogues doivent se banaliser.
Comme tout autre catalogue, Calames contient des erreurs, c’est-à-dire des affirmations fausses. En creux, ce truisme nous rappelle qu’un catalogue est une base de connaissance(s), au moins au sens ordinaire du terme : une collection d’affirmations qui prétendent être vraies. On raisonne trop souvent en termes de notices, ces paquets de données qu’on s’échange entre bibliothèques, qu’on charge dans nos systèmes, qu’on affiche aux utilisateurs. Au contraire, il faudra de plus en plus arracher la ficelle et l’enveloppe qui font tenir ensemble les données de la notice, et raisonner au niveau plus élémentaire de chaque affirmation de base :
Cette façon de penser nos données
Désormais, la mission d’un catalogue comme Calames n’est plus de présenter son propre corpus de données sur un mode autarcique. Il doit s’ouvrir aux compléments d’information diffusés par d’autres sources fiables disponibles sur le web. Pour Calames, dans un premier cercle, il s’agit de se connecter étroitement aux informations complémentaires présentes dans le catalogue Sudoc
Le chantier est encore long qui permettra cette vraie interopérabilité, qui va à la racine de l’information, au lieu d’en rester au niveau de l’échange de notices ou de simples hyperliens. C’est dans cette perspective d’une connaissance partagée et distribuée sur les manuscrits ou les œuvres que les fonctionnalités web 2.0 prennent sens. Si Calames doit très bientôt offrir à ses lecteurs la possibilité d’annoter les notices de manuscrits, c’est bien pour faire remonter à la surface du web certaines connaissances sur ces mêmes manuscrits, émanant de chercheurs ou d’autres institutions patrimoniales. Mais ces connaissances ne doivent pas rester enfouies dans Calames. D’autres sources doivent pouvoir réutiliser les notices et les annotations savantes de Calames, dans un autre contexte. Cela suppose de mettre en place de nouvelles solutions techniques, qu’il n’est hélas pas possible d’expliquer ni même de résumer ici.
Truisme suivant : un catalogue de manuscrits parle de manuscrits. Ce n’est pas faux, mais c’est incomplet. Calames parle également, entre autres entités, de personnes physiques, de collectivités ou de familles. Quand Calames affirme que :
il dit aussi bien que :
Sous un certain point de vue, Calames est autant un catalogue de personnes qu’un catalogue de manuscrits. Certes, le point de vue des bibliothèques est légitimement centré sur les documents. Selon cette perspective, on ne mentionne la personne qu’à titre de propriété du document. Mais le point de vue inverse est tout aussi justifié : le manuscrit est un épiphénomène de la personne. Actuellement, en tant que catalogue de bibliothèques, Calames privilégie l’accès par la cote et l’organisation hiérarchique des fonds. On pourrait imaginer un Calames inversé où l’
Les catalogues de documents contiennent de précieuses informations sur les personnes, qu’il serait souvent facile et utile d’expliciter, d’extraire et de publier à destination des chercheurs. Prenons un exemple simple. La notice en figure 5 établit implicitement une relation entre deux personnes :
ce qui implique trivialement que :
et que :
Ces petites vérités sont des évidences pour le lecteur du catalogue, mais, aujourd’hui, elles ne sont pas exploitables aisément par des programmes. Il pourrait être utile de constituer une base de connaissance interrogeable qui agrège toutes ces petites informations élémentaires extraites de nombreux catalogues du web patrimonial. Chaque catalogue est un
Le patrimoine documentaire est dispersé entre des centaines d’institutions de conservation. Chaque catalogue est une pièce de cet immense puzzle documentaire formé par l’histoire. Créer une interface de recherche fédérée sur les différents catalogues n’est pas la solution : un méta-catalogue ne fait que juxtaposer. Ce n’est pas en rassemblant toutes les pièces dans une grande boîte et en secouant le tout avec énergie et conviction qu’on reconstitue le puzzle. Le modèle à suivre est plutôt celui du
Ainsi, c’est dans cet esprit du
Pour que les chercheurs, les éditeurs et les institutions patrimoniales aient une chance de reconstituer ces puzzles documentaires, il faut que chaque catalogue s’assume comme base de connaissance. Qu’on fasse l’inventaire de toutes les entités dont parle un catalogue (collections, documents, personnes physiques, collectivités, concepts/sujets…). Qu’on baptise ces entités de façon à ce que n’importe quel autre site du web puisse les identifier, les nommer et ainsi partager à son tour les connaissances qu’il possède sur ces mêmes manuscrits, ces mêmes objets…
Dans l’environnement du web, ces noms propres prennent la forme d’URL (
Le catalogue patrimonial fait l’inventaire d’une collection bien -spécifique, la collection d’une institution de conservation (ou de plusieurs, dans le cas d’un catalogue collectif comme Calames). Pourtant, les pièces de cette collection appartiennent aussi à d’autres collections, moins tangibles
Un catalogue patrimonial ne doit plus être seulement une interface de recherche et de consultation. Il doit devenir un vivier documentaire dans lequel un chercheur pourra venir puiser pour constituer et diffuser sa propre collection, son propre catalogue, sa propre bibliothèque numérique
Septembre 2008