
Peter Chan est archiviste à l'Université de Stanford, spécialiste de l'archivage numérique et ancien responsable du projet ePADD sur l'archivage des emails. En tant qu'archiviste au sein des bibliothèques de l'Université, il travaille actuellement sur les applications de l'IA générative aux collections des bibliothèques.
1/ Vous êtes archiviste, spécialiste de l'archivage numérique, au sein du réseau de bibliothèques de l'université de Stanford. Quelles sont vos responsabilités ?
En tant qu'archiviste Web, je collabore avec les bibliographes de Stanford qui sélectionnent les sites Web à préserver. La technologie actuelle d'archivage du web ne peut capturer que certaines parties des sites web, ce qui peut entraîner un manque d'attentes de la part des bibliographes. En outre, nous dépendons d'un prestataire externe pour explorer le contenu et le transférer dans notre référentiel de préservation. Je coordonne la résolution des problèmes qui surviennent au cours de ce processus et, si le prestataire ne peut pas résoudre les problèmes, j'utilise d'autres outils disponibles pour tenter d'y remédier.
J'utilise également l'IA générative pour résumer le contenu de chaque site web en tant que métadonnées pour notre système de catalogue. Cela permet aux chercheurs de découvrir les sites web archivés en même temps que les autres ressources de la bibliothèque, tels que les livres, les bases de données et les revues. Actuellement, certaines plateformes de sites web archivés offrent une recherche plein texte pour explorer le contenu, et j'explore l'utilisation de WARC-GPT, un outil open-source qui permet aux chercheurs d'effectuer des recherches sémantiques dans les archives web.
2) Entre 2013 et 2019, vous avez dirigé le projet ePADD sur l'archivage des courriels. Quels sont les principaux défis posés par l'archivage des courriels ?
Comme je l'ai mentionné dans ma présentation aux étudiants de l'Enssib, « Exploring the Interdisciplinary Connections of Email Archiving : De l'archivistique à l'intelligence artificielle », l'archivage des courriels nécessite des connaissances dans au moins huit disciplines : les études archivistiques, l'archéologie numérique, l'archivage du web, la confidentialité des données, la conservation numérique, l'IA étroite, l'analyse des réseaux sociaux et l'IA générative. Il est difficile pour une seule personne d'être experte dans ces huit disciplines, mais il est essentiel de reconnaître la complexité de la tâche et de collaborer avec des personnes qui possèdent les compétences nécessaires.
Stanford Named Entity Recognizer (NER), un outil d'IA pour la reconnaissance des entités nommées en anglais, en particulier pour les catégories PERSONNE, ORGANISATION et LIEU, a été publié pour la première fois le 18 septembre 2006. Cet outil est extrêmement utile aux archivistes et aux chercheurs pour extraire les entités nommées des documents. Cependant, demander aux historiens de télécharger Stanford NER et de formater les données pour l'outil peut s'avérer trop complexe.
Le projet ePADD intègre Stanford NER dans un paquetage convivial, le rendant transparent et facile à utiliser pour les archivistes et les chercheurs. La mise en œuvre de cette intégration nécessite une étroite collaboration entre les archivistes, les experts en intelligence artificielle et les programmeurs. Cette complexité est l'une des raisons pour lesquelles il n'existe pas beaucoup de logiciels comme ePADD pour aider les archivistes et les chercheurs à tirer pleinement parti de la puissance de l'IA.
3/ Vous êtes intéressé par les applications de l'IA au sein des bibliothèques et des archives. Pouvez-vous nous en dire plus ?
"More Product, Less Process (MPLP)" est un article de 2005 de Mark A. Greene et Dennis Meissner préconisant un traitement d'archives minimal pour réduire les taches en retard et accélérer l'accès aux collections. Cette approche a été largement adoptée, augmentant l'accessibilité sans limiter le traitement détaillé futur. Cependant, même avec le MPLP, les archivistes sont toujours confrontés à d’importants retards.
Avec des outils d'IA disponibles pour des tâches telles que la synthèse, la reconnaissance faciale et la modélisation de sujets, je propose une nouvelle approche : "Plus d'IA, plus de produit, plus de commentaires" pour le traitement des archives. Étant donné que la plupart des outils d’IA sont formés sur des textes, images ou vidéos généraux, nous devons les évaluer soigneusement avant leur mise en œuvre. De plus, ces outils peuvent ne pas fonctionner correctement dans les cas à longue traîne. Les chercheurs peuvent jouer un rôle crucial dans l’identification des problèmes. C’est pourquoi nous avons besoin d’un système de retour d’information robuste pour répondre à leurs préoccupations.
Avec l’introduction de l’IA générative utilisant des modèles de base (également appelés grands modèles de langage) et des technologies associées, nous pouvons désormais effectuer une recherche sémantique, qui fournit des résultats qui vont au-delà des capacités traditionnelles de recherche en texte intégral. Cependant, certains outils d’IA sont actuellement déconnectés de nos collections, ce qui crée des défis pour les chercheurs. Nous devons intégrer les outils d’IA de manière plus transparente dans nos collections pour les rendre aussi transparentes et conviviales que possible.
Propos recueillis le 9 octobre 2024