Indexation automatique de corpus documentaires

Question

Je suis étudiant en Information documentaire en troisième année et pour mon travail de bachelor, je dois mettre en place un système de veille dans l'une des bibliothèques de ma ville. L'une des étapes de mon travail consiste à extraire les mots-clés les plus pertinents de plus de 2'000 notices bibliographiques issues de trois bibliographies. Les notices de chacune des bibliographies ont des points communs entre elles (au niveau de la période - le 16e siècle - pour l'une d'entre elles et au niveau de la matière pour les deux autres). Ma question est donc la suivante : existe-t-il une méthodologie pour extraire les mots-clés pertinents d'une telle quantité d'informations ? Existe-t-il des pistes ? Des travaux (en anglais ou en français) qui traitent de ce sujet ? J'ai cherché de nombreuses heures déjà et n'ai rien trouvé.

Réponse

Date de la réponse :  14/03/2014

Il existe une nombreuse littérature sur l'indexation automatique de grands corpus documentaires, dans le domaine du traitement automatique des langues (tal) et de la fouille de textes, ce qui correspond le plus à votre sujet. Cela s'explique en partie par le développement du web et de la numérisation qui contraint à travailler sur de grands corpus linguistiques. Cependant, dans votre cas, le corpus est constitué de notices bibliographiques, cas spécifique, en une quantité qui n'est probablement pas significative.

Vous pouvez avoir une première approche assez simple de cette question sur un dossier du Ministère de la Culture, L'ingénierie linguistique (http://www.culture.gouv.fr/culture/dglf/rifal/enjeux.htm), en particulier la partie L'indexation automatique - enjeux, possibilités et limites, propos recueillis auprès de Bruno Bachimont, qui en est expert.
L'indexation automatique - enjeux, possibilités et limites : http://www.culture.gouv.fr/culture/dglf/rifal/indexation.htm.
Ce site propose aussi une liste d'outils qui peuvent vous intéresser : http://www.culture.gouv.fr/culture/dglf/rifal/annuaire.htm#synapse.

Pour les bases et principes, qui n'ont pas changé, voyez aussi :
Alexandre Serres, Introduction à l'indexation, URFIST de Rennes, 2003
http://www.sites.univ-rennes2.fr/urfist/Supports/Indexation/Indexation4I....

Un ouvrage présente une méthodologie rapide de la démarche que vous pouvez suivre :
Indexation de documents et de rubriques, p. 239 et suivantes :
"Il s'agit d'extraire de chaque document des candidats descripteurs... de confronter ceux-ci à ceux issus des autres documents afin d'en ériger certains au rang de descripteurs". On nomme ce type d’indexation indexation libre ou indexation dérivée (derived indexing)."
Geneviève Lallich-Boidin, Dominique Maret. Recherche d'information et traitement de la langue. Presses de l'enssib, 2005.
Vous pourriez consulter ce document pour plus d'informations. À noter qu'il s'agit d'un manuel de cours, qui reste donc théorique.

À signaler un autre ouvrage, très complet, qui dresse un état des lieux de la question, de ses méthodes et enjeux, à un niveau de recherche.
Fidélia Ibekwe-SanJuan. Fouille de textes : méthodes, outils et applications. Lavoisier-Hermes, 2007.

Vous pouvez aussi consulter un article de recherche récent, qui fait le point des différentes méthodes de traitement (mais cela devient ardu). Vous pourrez vous appuyer sur sa bibliographie et rebondir sur d'autres concepts.
Adrien Bougouin. État de l’art des méthodes d’extraction automatique de termes-clés. 2013 http://hal.univ-nantes.fr/docs/00/82/16/71/PDF/extraction_de_termes_cles...
Manuscrit auteur, publié dans Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL), Sables d'Olonne : France (2013).

Ensuite, sur ce sujet, vous allez trouver soit des articles de recherche, qui analysent donc les problématiques et relatent des résultats d'expérimentation, et ne sont donc pas opérationnels, soit des outils déjà opérationnels, qui ont tous leurs spécificités, leurs contraintes techniques et leurs limites. À vous de définir vos besoins.

Cependant, l'extraction automatique de mots-clés ne sera jamais fiable à 100%, d'autant que vous partez de notices. Le travail à mener pour automatiser l'extraction des descripteurs risque d'être disproportionné au final, pour une qualité limitée.

Nous espérons avoir répondu à votre question. Si ce n'était pas le cas, n'hésitez pas à nous recontacter.

Merci de penser à remplir le sondage de satisfaction tout au bas de ce message.

Cordialement,
Le service Questions? Réponses! de l'enssib

MOTS CLES : Traitement de l'information : Systèmes classificatoires