Constitution de corpus - Défis méthodologiques et solutions apportées par l'infrastructure Istex
École thématique. Modèles de langue pour le traitement sémantique et l’intégration de connaissances et données en agriculture, alimentation et environnement, Montpellier, France. 2025
Description : Les corpus jouent un rôle central dans l’écosystème des grands modèles de langue (LLM), constituant la matière première indispensable à leur entraînement. La qualité, la diversité et la structuration de ces corpus conditionnent ainsi directement les performances, la robustesse et la fiabilité des modèles. En aval de ces entraînements, les LLM permettent à leur tour d’exploiter les corpus pour extraire ou analyser automatiquement les informations contenues dans les textes. Dans ce contexte, l’infrastructure Istex offre des solutions facilitant la constitution de corpus documentaires en vue d’une exploitation par des LLM. Elle donne un accès à plus de 30 millions de publications scientifiques multidisciplinaires, accompagnées d’outils pour créer, gérer et exploiter des corpus adaptés aux besoins de la recherche. Cette présentation s’appuie sur un cas d’usage concret autour d’Istex pour explorer les principaux défis méthodologiques liés à la constitution de corpus. À travers cet exemple, il s’agit de comprendre, à chaque étape, quels sont les enjeux scientifiques et techniques qui se posent. 1. Sélectionner des documents - Cette première étape implique de savoir où trouver des données et de choisir la méthode d’extraction utilisée (API, web scraping). Elle est l’occasion d’aborder plusieurs questions incontournables lors de la création d’un corpus : choix du genre de documents, anticipation des formats, sécurité juridique. Nous montrons que l’application Istex Search facilite la sélection des documents grâce à un moteur de recherche avancé. Elle permet de télécharger jusqu’à 100 000 documents dans différents formats (standardisés et structurés) et dans un cadre juridique négocié. 2. Explorer et affiner le corpus - Une fois le corpus constitué, il est crucial de l’explorer pour en diagnostiquer la qualité : repérer le bruit et le silence, évaluer sa représentativité par rapport à la diversité des thématiques, périodes ou langues ciblées. Cette exploration permet d’affiner le corpus et d’en renforcer la validité en vue d’analyses ultérieures. À cette étape, nous présentons l’outil Lodex qui permet de créer un site web à partir d’un corpus, et rend la phase d’affinage plus accessible grâce à des fonctionnalités de visualisation interactive. 3. Annoter ou enrichir le corpus - Pour exploiter pleinement un corpus, il est souvent nécessaire de l’annoter (ajout de métadonnées, catégorisation) ou de l’enrichir (extraction d’entités, indexation). Ces opérations requièrent des compétences techniques et peuvent s’avérer chronophages. À cette dernière étape, les web services Istex TDM fournissent des outils prêts à l’emploi pour nettoyer ou enrichir les corpus, facilitant ensuite leur exploitation. Ces trois étapes ne suivent pas toujours un ordre linéaire : l’enrichissement peut révéler des besoins nécessitant une nouvelle exploration ou une sélection différente. La constitution de corpus est donc un processus itératif, où chaque phase nourrit les autres. Cette intervention mêle réflexion théorique et démonstration d’outils pour