Bonjour, Je recherche des informations sur le calcul de proximités/distances entre différents domaines d'une classification. Le but est de pouvoir...

Attention, cette réponse est ancienne. Son contenu peut être en tout ou partie obsolète.

Question

Bonjour,
Je recherche des informations sur le calcul de proximités/distances entre différents domaines d'une classification. Le but est de pouvoir comparer le domaine d'un document avec le domaine d'un autre document, afin de déterminer un degrés de proximité quant au sujet sur lequel ils portent. Par exemple, le document 1 parle de géographie, le second parle de géologie, le 3ème d'histoire : est-ce que géologie est plus proche de géographie que ne l'est histoire ? Autrement dit, le document 1 est-il plus proche d'un point de vue thématique du document 2 ou bien du document 3 ? Il s'agit d'un exemple très simple, sachant que la combinaison de termes est possible, de même qu'une plus grande précision dans la description. Je reconnais que cette question est pointue et complexe. Procéder de manière empirique est la solution envisagée. Préalablement, je souhaiterai connaître les travaux et recherches éventuelles allant dans ce sens (avec tout types de classification, systèmes d'indexation, taxonomies, etc). Je vous remercie.

Réponse

Date de la réponse :  17/09/2013

De manière générale, pour bien appréhender les notions de classification et d’indexation, nous vous recommandons de consulter les documents suivants :
- le dictionnaire de l’enssib, pour la définition de la classification : http://www.enssib.fr/le-dictionnaire/classification
- Un manuel récent : HUDON, Michèle. Analyse et représentation documentaires : Introduction à l'indexation, à la classification et à la condensation des documents. Québec : Presses de l'Université du Québec, 2013. 328 pages. ISBN 978-2-7605-3745-3. Disponible sur : http://www.puq.ca/catalogue/livres/analyse-representation-documentaires-...
- Un manuel plus ancien : MANIEZ, Jacques. Actualité des langages documentaires : les fondements théoriques de la recherche d’information. Paris : ADBS Éditions, 2002. 395 p. Sciences de l’information : Série Études et techniques. ISBN 2-84365-060-7
- Un compte rendu critique de ce manuel : AMAR, Muriel. Jacques Maniez : Actualité des langages documentaires. Bulletin des Bibliothèques de France, 2002, t.47, n° 5, p. 112-112 [en ligne]. Disponible sur : http://bbf.enssib.fr/consulter/bbf-2002-05-0112-011
- la thèse de Muriel Amar : AMAR, Muriel. Les fondements théoriques de l’indexation : une approche linguistique. Paris : ADBS Éditions, 2000. 355 p. Sciences de l’information : Série Recherches et documents. ISBN 2-84365-042-9
- Un compte rendu critique de cette thèse : CALENGE, Bertrand. AMAR, Muriel : Les fondements théoriques de l’indexation. Bulletin des Bibliothèques de France, 2001, t.46, n° 1, p. 142-143 [en ligne]. Disponible sur : http://bbf.enssib.fr/consulter/bbf-2001-01-0142-001
De même, nous vous invitons à consulter le blog Descripteurs.net, qui est une référence très appréciée de la communauté professionnelle : http://descripteurs.net/

Nous comprenons dans votre question que vous cherchez une forme de représentation graphique et/ou cartographique des domaines d’une classification.

Plusieurs outils existent pour cartographier les sujets, que l'on qualifie généralement de cartes heuristiques. Vous trouverez sur Wikipédia une présentation des cartes heuristiques ainsi qu'une liste de logiciels pour les mettre en application : http://fr.wikipedia.org/wiki/Carte_heuristique
Sur le sujet, vous pouvez également consulter :
- ROBINEAU, Régis. Les cartes cognitives : mind maps et concept maps. in Mindcator [en ligne]. Disponible sur : http://mindcator.free.fr/index.php?cote=130
- VILLEMIN, F.-Y. Représentation des connaissances. 2012. [en ligne]. Disponible sur : http://www.google.fr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=10&ved=0CGoQ...
- un exemple sur le site Pearltrees :
Classifications. in Pearltrees [en ligne]. Disponible sur : http://www.pearltrees.com/#/N-u=1_943113&N-fa=6852708&N-s=1_7616018&N-f=...

En ce qui concerne le calcul des distances entre les domaines, voici plusieurs textes qui pourraient vous inspirer :
- LABBÉ, Cyril et LABBÉ, Dominique. La classification des textes : Comment trouver le meilleur classement possible au sein d’une collection de textes ? in Images des Mathématiques, CNRS, 2011. [en ligne]. Disponible sur : http://images.math.cnrs.fr/La-classification-des-textes.html et en version plus approfondie sur : http://hal.archives-ouvertes.fr/docs/00/58/37/61/PDF/La_classification_d...
- BRUNET, Étienne. Peut-on mesurer la distance entre deux textes ? [en ligne]. Nice : Corpus, 2003. Disponible sur : http://corpus.revues.org/30
- LUONG, Xuan et MELLET, Sylvie. Mesures de distance grammaticale entre les textes [en ligne]. Nice : Corpus, 2003. Disponible sur : http://corpus.revues.org/34
- IBEKWE-SANJUAN, Fidelia. Information Science in the web era: a term-based approach to domain mapping. [en ligne] Vancouver : ASSIST annual meeting, 2009. Disponible sur : http://hal.archives-ouvertes.fr/hal-00635478

Vous pouvez aussi explorer la piste de la lemmatisation appliquée à la classification, dont voici une définition dans Wikipédia : http://fr.wikipedia.org/wiki/Lemmatisation

La piste du teasing paraît également intéressante pour votre recherche (pour une définition, Wikipédia : http://fr.wikipedia.org/wiki/Teasing).
Sur le sujet, vous pouvez consulter :
- LIU, Annie, CHU, Vu et BUMGARNER, Roger. TEASE (Tree EASE) : A method to integrate term enrichment analysis with hierarchical clustering. [en ligne] Seattle : Université de Washington / Bioinformatics, 2006. Disponible sur : http://users.cms.caltech.edu/~aliu/doc/TEASE_techreport.pdf

Enfin, voici quelques exemples d'applications concrètes dans le domaine des sciences de l'information :
- Une carte conceptuelle sur le thème "les bibliothèques conduisent l’accès au savoir"
GIANNELLI, Francesca et SPAGNOLI, Roberta. Conduire l’accès au savoir : une carte conceptuelle [en ligne]. Août 2009. p 10. Disponible sur : http://conference.ifla.org/past/2009/xpress6-fr-2009.pdf
Vous trouverez la carte et les explications afférentes à ce travail sur le blog " IFLA 2009 Presidential Theme" : http://ifladill2009.wordpress.com/
- Le catalogue de la bibliothèque publique d'Amsterdam (Pays-Bas) avec AquaBrowser (noter la représentation graphique des sujets dans le cartouche à gauche de l'écran) :
Ville d'Amsterdam. Bibliothèque [Catalogue informatique de la bibliothèque][en ligne]. Amsterdam (Pays-Bas) : Bibliothèque publique. Disponible sur : http://www.oba.nl/zoeken/?query=indexeren

Tous les liens ont été consultés le 17 septembre 2013.

Cordialement,

Le Service questions? réponses! de l'enssib

MOTS CLES : Traitement de l'information : Catalogues, Traitement de l'information : Modèles de représentation, Traitement de l'information : Systèmes classificatoires