L'association ISKO (International Society for Knowledge Organization), fondée en 1989, a pour ambition de servir de lien - au plan national et au plan international - entre des personnes ou des institutions vouées à l'étude de l'organisation du savoir. Elle souhaite contribuer à un échange plus intense et plus rapide des expériences, et par suite à la clarification et à l'extension des connaissances de ce domaine.
Le 5e congrès de l'ISKO s'est tenu cette année à Lille grâce au soutien logistique de l'université Lille-lll. Les cinquante-quatre communications, servies par une traduction simultanée efficace, ont été suivies par quelque 120 participants, qui ont manifesté leur intérêt soutenu par des questions - de même que par les discussions au cours des pauses. Outre les Français (15 communications), les intervenants venaient de 15 autres pays, notamment les USA (10), le Canada (5), l'Allemagne (4), le Royaume-Uni (4), le Danemark (3). Enfin, la plupart des communications portaient sur des recherches théoriques ; seuls cinq d'entre elles rendaient compte de projets orientés vers une application.
Le thème du congrès, « Structures et relations dans les systèmes d'organisation des connaissances », était réparti au fil des sessions en neuf thèmes fédérateurs : Épistémologie et écologie de l'information, Approches cognitives de l'organisation du savoir, Modèles informatiques, Développement et analyse des systèmes de classification, Approches interdisciplinaires, Conception des thésaurus, Les bases de connaissances comme interfaces, Aspects linguistiques, Le point de vue comparatif.
Nous préférons, sous un mode plus synthétique, les regrouper autour de quatre grands secteurs de recherche : les études générales sur les principes et les modèles d'organisation des connaissances ; les études plus techniques sur l'évolution des systèmes classificatoires ; les nouveaux modèles informatiques ; le traitement de l'image.
Les exposés de tendance philosophique (au sens large du terme) s'interrogent sur les notions mêmes d'organisation du savoir, de classification, de langage documentaire, de discipline, ou soulignent la continuité entre la philosophie grecque ou les paradigmes des anciens mythes et les nouvelles technologies de l'information. Les plus hardis mettent en cause le principe traditionnel selon lequel tout système de recherche documentaire doit être centré sur le sujet, et plaident en faveur d'une « écologie de l'information », système ouvert et évolutif en interaction constante avec ses utilisateurs.
Les spécialistes des systèmes classificatoires dressent un bilan plutôt optimiste des efforts de modernisation conduits ces dernières années pour rajeunir les classifications traditionnelles (DDC, CDU, bibliothèque du Congrès). Certains travaillent même à une adaptation de ces systèmes à la recherche sur l'Internet. D'autres s'orientent vers des types plus souples et plus accueillants de classification universelle. Les relations font l'objet de mises au point minutieuses et de projets d'enrichissement, notamment les relations hiérarchiques, communes aux classifications et aux thésaurus.
Les informaticiens sont présents sur tous les fronts, et leurs travaux se conjuguent souvent à ceux des autres disciplines dans des équipes pluridisciplinaires. L'application de l'intelligence artificielle et de la cognitique au monde de la recherche documentaire ouvre des perspectives infinies. Bien que les chantiers de recherche en ce domaine soient encore pour la plupart au stade de la conception et de l'expérimentation, les chercheurs foisonnent d'idées ingénieuses et peaufinent des outils logiciels adaptés à leurs projets (modélisation conceptuelle, ontologies). Signalons plusieurs projets de modélisation des utilisateurs, des études sur la représentation cartographique optimale des connaissances extraites des bases de données, des modèles d'ontologies appliqués à la classification des concepts, des projets de didacticiels interactifs hypermédias.
Enfin, quelques exposés soulignent les perspectives qu'ouvrent à la recherche des informations la visualisation des relations sémantiques et les techniques de recherche d'images.
Les Actes du congrès sont disponibles aux éditions ERGON, Wurzburg (Allemagne) : Structures and Relations in Knowledge Organization. - 435 p. - 89 DM.
En science de l'information, la création et la maintenance des schémas de classification exigent deux ingrédients abstraits : a) un ensemble de concepts relatifs à un ou deux domaines ; b) un ensemble de structures non ambiguës pour articuler les relations permanentes entre les différents concepts. Nous soutenons que les choix concernant la structure d'une classification dépassent de loin la simple création de liens entre les éléments d'un groupe de concepts. Nous plaidons pour une vision plus large de la construction des classifications, où conception et maintenance sont guidées par un dialogue entre les acteurs engagés dans la production et l'usage des connaissances, et fondées sur une théorie sociale explicite touchant le rôle proprement social de la classification. Cette proposition implique une nouvelle vue du rôle social des concepteurs de classifications, considérés comme des auxiliaires de l'accès au savoir plutôt que comme des ingénieurs du produit information. Nous utilisons deux notions développées dans le cadre des théories modernes des systèmes d'information : celle d'« écologie de l'information » et celle d'« objet-frontière ».
Une écologie de l'information est un réseau complexe d'agents interactifs, d'usagers et de technologies qui concourent à la production, à la médiation, à la dissémination et au recyclage des connaissances (Nardi Et O'Day, 1996). À la vision de systèmes clos bâtis sur des structures universelles de l'esprit humain se substitue celle de systèmes plus ouverts s'organisant eux-mêmes, en évolution constante et s'adaptant aux changements de leur environnement sociopolitique et/ou intellectuel, y compris ceux des autres écologies de l'information avec lesquelles ils interfèrent.
La notion d'objet-frontière, introduite en 1989 par le sociologue Leigh Star, aide à comprendre comment des groupes professionnels différents créent un espace de travail en commun pour surmonter les difficultés initiales de communication dues au manque d'accord sur les concepts ou des méthodes. Cet espace de travail se construit grâce à des objets-frontières tels que des systèmes de classification, qui relient entre eux les concepts communs et les rôles sociaux divergents de chaque groupe professionnel. Les objets-frontières contribuent à la stabilité du système de référence en offrant un contexte partagé pour la communication et la coopération.
Les classifications peuvent fonctionner comme des objets-frontières dans des systèmes d'information ouverts et auto-organisés qui admettent la création d'un espace partagé, autrement dit dans le cadre d'un contexte conceptuel commun ou en reliant les différents acteurs engagés dans la production, le transfert et l'usage du savoir. La difficulté est de concilier les évolutions inévitables liées à la pratique du système et la stabilité nécessaire aux systèmes d'information.
La conception et la maintenance d'un système de classification et de sa structure forment un processus socio-technique qui se situe dans le cadre d'une écologie de l'information, autrement dit d'un système auto-organisé de production, de transfert et d'utilisation du savoir. Ainsi, les créateurs de schémas classificatoires peuvent développer une nouvelle fonction sociale en tant qu'agents de médiation du savoir dans les écologies de l'information.
Cette communication, qui s'inscrit dans un cycle d'études consacrées à l'anthropologie des savoirs, se propose d'évaluer le rôle que certains paradigmes métaphoriques jouent dans deux secteurs épistémiques conjoints qui sont relatifs, d'une part, à l'organisation des connaissances (où il est question du statut respectif des sciences et de leur domaine de compétences) et, de l'autre, à celle de la construction des objets de la connaissance (où se pose le problème de l'accès à un savoir sur ces objets).
Parmi ces paradigmes, il en est deux, aussi vivaces dans les mythes anciens que dans la science moderne et contemporaine, qui retiendront notre attention. Le premier, où le recyclage est au moins aussi fécond que l'innovation, est celui de la métabolè. Recouvrant plusieurs aspects qui se rapportent tout à la fois au déplacement, à la circulation, à l'échange et à la transformation, à la migration, à la dissémination, à la mobilité, à la flexibilité, il est présent dans la plupart des modèles épistémologiques contemporains, et notamment dans ceux du nouvel encyclopédisme.
Quant au second paradigme, celui de la profondeur, d'un usage constant depuis toujours dans tous les domaines des sciences linguistiques, sémiotiques ou herméneutiques, il connaît de nos jours un grand regain d'intérêt, tout particulièrement dans le secteur des nouvelles technologies de l'information et de la communication (NTIC), qui lui confèrent un nouveau statut et de nouvelles fonctions. C'est ce que nous tenterons de mettre en évidence avec l'exemple de l'hypertexte, qui semble offrir les conditions propices à l'émergence d'une nouvelle herméneutique textuelle.
Dans les langues naturelles, les raisonnements sont rarement déductifs. Dans la plupart des cas (anaphores, négations...], ils impliquent une sorte de « pari » dont la validité est vérifiée par la suite du texte. L'article étudie ce type de raisonnement, qu'on peut appeler raisonnement abductif, en l'illustrant de nombreux exemples en langage naturel. Puis il en propose un traitement logique, fondé sur le concept de base de connaissances. Il donne enfin deux exemples d'application du raisonnement abductif : les anaphores associatives et les négations.
Les recommandations de la norme ISO 2788 pour l'établissement des thésaurus monolingues comportent une différenciation entre trois types de relations hiérarchiques : générique, partitive, « exemple de » (instanciation) ; différenciation qu'on pouvait en principe négliger ou confondre en fonction des buts de la recherche documentaire. Au contraire, les ontologies, conçues comme des inventaires linguistiques en vue d'élargir le champ de la représentation des connaissances, sont fondées sur ces trois distinctions et quelques autres de nature plus logique.
À la suite d'une relecture de la norme ISO 2788 et de la consultation de la partie publiée de l'ontologie de référence CYC (Cyc Upper Ontology), on montre que l'adoption de la définition documentaire de la relation hiérarchique (subsomption) est généralement incompatible avec la conception ou l'utilisation d'un thésaurus en tant que sous-structure d'une ontologie de la nouvelle génération, celle qui a été construite en vue des applications d'intelligence artificielle. Quand un thésaurus est utilisé pour la description de faits et l'inférence sur la description de faits, la relation « exemple de » doit également être révisée : elle peut aussi relier des concepts et des métaconcepts (groupes de concepts), et alors on doit la différencier de la subsomption. Dans cette optique, on décrit le traitement de la relation « exemple de » dans les thésaurus, dans Cyc Upper Ontology et dans WordNet.
Le parcours exploratoire des documents peut être une technique importante de récupération d'informations dans de grandes bases de connaissances textuelles. Cependant la recherche des informations est complexe, et on peut se perdre facilement dans un réseau complexe de noeuds représentant des concepts. Nous montrons dans cet exposé comment la capacité à explorer peut être soutenue par des connaissances à base d'ontologies. Les inconvénients mentionnés ci-dessus sont évités si on fournit des outils pour guider les usagers dans leurs tâches exploratoires, en particulier ceux qui n'ont pas l'expérience du domaine. Nous proposons une méthode permettant aux interrogateurs ou aux explorateurs de viser les objets informationnels conformes à leurs tâches de recherche et d'accomplir ces tâches pas à pas pour réaliser leurs objectifs et leurs intentions. On propose trois types de modèles à base d'ontologie, qui structurent et organisent les informations pour en faciliter l'accès. Les informations obtenues en réponse sont réutilisées pour faciliter la navigation exploratoire de l'utilisateur, sans pour autant restreindre ses options. Pour finir, nous nous demandons comment maintenir les profils de tâches des utilisateurs afin de réutiliser au mieux les interrogations précédentes.
Une terminologie de référence peut se définir comme une structure conceptuelle dans laquelle on identifie les termes ou les noms des concepts relatifs à un champ spécifique de connaissances et les relations logico-sémantiques qui les relient. Construire ce type de terminologie à partir de données textuelles étendues n'est pas une tâche aisée quand le concepteur doit étudier un nouveau domaine de connaissances. Qu'il s'agisse de la représentation des concepts pour la construction de systèmes à base de connaissances, de la construction d'un thésaurus (bases documentaires, recherche documentaire) ou de la construction de bases de données terminologiques, on observe des difficultés spécifiques dues au fait que les relations interconceptuelles sont rarement spécifiées. De ce fait, il est souvent difficile de valider la représentation qu'on a construite. Dans la méthode que nous proposons, nous associons des propriétés aux relations en introduisant les relations dans un système de spécifications. Ainsi, il devient possible de tester non pas la validité de la structure conceptuelle construite mais sa cohérence au regard des relations établies entre les concepts, ce qui est la condition nécessaire à la validation d'une représentation sémantique.
Notre travail s'intéresse au problème de l'ancrage perceptif des symboles dans le traitement du langage naturel et utilise des notions issues de la psycholinguistique, de la neurophysiologie et de la psychologie cognitive. Notre idée maîtresse consiste à s'inspirer des diverses façons dont un enfant apprend le sens des mots. Nous pensons que, du point de vue du traitement du langage naturel, l'apprentissage du sens revient à modéliser le comportement d'un sujet et à utiliser des représentations dynamiques. Nous avons réalisé un système informatique qui peut construire un réseau de proximité sémantique entre les sens de mots tirés de corpus textuels. Ce réseau est relié à un autre réseau qui mémorise ce qui tient lieu d'expérience dans notre modèle.
Nous montrons qu'à partir de données de co-citation, la représentation graphique des traits spécifiques de Kohonen produit des résultats tout à fait comparables à ceux du positionnement multidimensionnel, qui est le mode traditionnel de représentation graphique assistée par ordinateur dans les domaines intellectuels. Nous présentons ensuite une carte des traits spécifiques de Kohonen obtenue à partir de co-citations d'auteurs qui relient les noms des auteurs aux informations que fournit le Web à leur propos. Ces résultats participent d'un projet pour la science moderne de l'information : intégrer la bibliométrie informatisée à la recherche documentaire.
En vue de représenter l'organisation thématique d'un espace de connaissances, nous comparons et évaluons deux approches différentes de la cartographie : l'analyse des composants principaux (PCA) et les réseaux neuronaux artificiels (ANNs) utilisant un perceptron multicouche (MLP) en mode d'« auto-association ». Ce genre de perceptron peut être employé pour réaliser une analyse des composants principaux si la fonction d'activation est fixée sur la valeur « identité ». Ceci nous permet de rechercher la fonction non linéaire d'activation qui convient le mieux à la structure des données. Nous présentons un critère d'évaluation, ainsi que les résultats et les cartes obtenues avec chacune des méthodes.
L'histoire de l'évolution structurelle des systèmes de classification (SC) se divise sous l'angle typologique en trois grandes étapes :
Ces différents types de systèmes fonctionnent simultanément dans la pratique de l'indexation. On peut observer une continuité nettement définie : chaque type de rang supérieur comprend les éléments structurels du système précédent. En d'autres termes, les classifications combinatoires comprennent les éléments d'une classification énumérative, alors que tout SC à facettes ou analytico-synthétique comprend les éléments d'un système combinatoire.
En vue de réaliser la compatibilité entre les principaux systèmes universels de classification en usage, nous avons exploré leurs principes structurels et recherché les points de difficulté cruciaux de cette entreprise, de façon à relier par exemple les classes principales de la DDC (Dewey), de la CDU (classification décimale universelle), de la LCC (bibliothèque du Congrès), de la BC (British Classification) aux groupes de sujets de la classification ICC (Information Coding Classification).
Grâce à une matrice dans les champs de laquelle ont été introduits tous les groupes de sujets de l'ICC, il n'a pas été difficile de loger les notations des systèmes universels de classification cités. Toutefois on a trouvé des différences dans les niveaux de subdivision, ainsi que des différences d'occurrences (présence ou absence d'un sujet). La plupart, mais non la totalité, des champs de la matrice ICC ont pu être complètement renseignés avec les notions correspondantes des autres systèmes. À partir de cette matrice, une première table de quelque 81 équivalences a pu être établie, ce qui peut servir de base à de futurs travaux sur les niveaux de sujets plus spécifiques.
Au cours de ce siècle, la création, la production, la dissémination et l'utilisation des connaissances ont changé profondément. Les barrières intellectuelles et physiques ont été réduites substantiellement par l'émergence de la pluridisciplinarité et sous l'influence de l'informatisation, notamment de l'expansion du World Wide Web (WWW). Les systèmes de classification bibliographiques doivent s'adapter à cette situation. On décrit trois réponses stratégiques possibles : 1) adopter un système existant ; 2) adapter un système existant ; 3) trouver de nouveaux principes structurels pour les systèmes de classification. On donne des exemples de ces trois réponses. Un exemple plus étendu de la troisième option utilise le schéma (arborescent) des connaissances qu'est le Spectrum de l'encyclopédie « Britannica Online » pour proposer une théorie de la « garantie du point de vue » (viewpoint warrant) qui pourrait permettre d'incorporer des perspectives différentes à l'intérieur des systèmes de classification.
L'arrivée de l'Internet a intensifié les problèmes de classification et de nomenclature dans une série de disciplines qui sont l'affaire des bibliothécaires depuis plus d'un siècle. La biologie et la médecine sont choisies comme exemples, et on passe en revue les travaux des spécialistes tant en systématique et taxonomie scientifiques qu'en classification bibliographique, afin de suggérer quelques solutions aux difficultés actuelles de la recherche documentaire.
Cet exposé passe en revue plusieurs techniques d'organisation des connaissances utilisées en informatique dans des secteurs tels que l'intelligence artificielle, les bases de données et l'ingénierie logicielle. Certains de ces mécanismes computationnels peuvent aider à organiser et à gérer d'immenses ressources d'information numérique. En même temps, l'article signale que les systèmes d'information informatisés sont de plus en plus obligés d'opérer dans des environnements ouverts structurés en réseau. Cette obligation exige des principes d'organisation des connaissances à la fois souples et susceptibles de s'adapter à des connaissances de type informel. Nous nous proposons de trouver ce genre de techniques d'organisation des connaissances en bibliothéconomie et en science de l'information, et nous espérons les intégrer aux techniques décrites au cours de l'exposé.
L'analyse textuelle fait partie des systèmes de traitement de l'information. L'accès aux données numériques à travers les serveurs Web est facilité par les moteurs de recherche, dits aussi robots. À la suite de son enquête, l'usager visualise des masses de pages Web obtenues en réponse. Cependant la sélection des documents devient très difficile, en raison du manque de pertinence de nombreuses réponses. Il lui est donc nécessaire de disposer d'outils permettant de filtrer l'information de toutes les pages du Web.
Notre but est de proposer une méthode de filtrage basée uniquement sur les adresses URL, les titres et les résumés. Ce filtrage doit permettre de constituer un ensemble de réponses filtrées qui permettront à leur tour d'améliorer la formulation de la requête. Cette démarche entre dans le cadre de la modélisation des besoins orientée vers l'utilisateur.
L'objectif est de construire un système d'indexation automatique utilisant le modèle des syntagmes nominaux (SN) comme moyen d'accès aux informations. La question qui se pose maintenant est : à quoi servent ces SN ? Pourront-ils jouer le rôle de descripteurs d'une base de données textuelles ? Comment les organiser dans un système d'indexation documentaire pour la recherche d'informations ?
Les grands systèmes classificatoires restent toujours fondés sur les disciplines malgré les changements majeurs apportés à la structure du savoir, notamment dans la dernière partie du xxe siècle. Il serait souhaitable de les remplacer par des systèmes qui tiennent compte de ces changements, mais en fait il est très peu probable que cela se produise dans un futur proche. Cet exposé traite des difficultés liées à la maîtrise de l'interdisciplinarité des sujets dans le cadre des systèmes existants. On définit la nature de l'interdisciplinarité et on en examine les problèmes généraux. On étudie les principes et les méthodes d'une telle maîtrise et on propose de nouvelles approches de ces problèmes. Des expériences sont conduites actuellement pour déterminer comment certaines des solutions pourraient être menées à bien dans le cadre des systèmes existants. On mentionne quelques exemples expérimentaux en cours de réalisation. L'objectif de cette communication est de proposer des solutions pratiques et d'indiquer des pistes pour de nouvelles recherches théoriques et expérimentales.
On étudie et décrit les relations parent/enfant dans les arborescences du MeSH (Medical Subject Headings : catalogue de vedettes matières de la National Library of Medecine), et on précise les différents types de structure relationnelle qu'elles comportent dans une sélection de classes principales et sous-classes principales.
La relation générique prédomine et est dans l'ensemble plus répandue qu'on ne l'a affirmé jusqu'ici. Toutefois, on a repéré en plus 67 relations différentes, dont la plupart ne sont pas hiérarchiques. On a constaté que les profils relationnels varient à la fois dans et entre les différents sous-domaines, mais qu'ils tendent à dessiner des schémas caractéristiques dans chaque domaine. On montre les implications de ces faits pour le raisonnement inférentiel et pour les opérations informatiques sur les structures hiérarchiques.
La cohérence terminologique entre des indexeurs qui utilisent un thésaurus comme auxiliaire de l'indexation reste faible. Ceci semble indiquer que les indexeurs ne perçoivent pas aisément ou très clairement le sens de chaque descripteur utilisable comme terme d'indexation. Cette communication présente le cadre et quelques-uns des résultats d'une expérience limitée conçue en vue d'étudier les effets sur la cohérence terminologique entre indexeurs d'une modification de la nature des informations sémantiques qui accompagnent les descripteurs d'un thésaurus. L'étude a apporté également quelques lumières sur l'utilité respective des définitions standardisées et du réseau traditionnel de relations hiérarchiques et associatives pour fournir les informations sémantiques essentielles dans un thésaurus utilisé comme un auxiliaire de l'indexation.
Pour l'exposition EXP02000 de Hanovre, où seront débattus tous les grands problèmes du monde actuel, et où des milliers de sujets différents feront l'objet de démonstrations, la nécessité d'établir un pont entre ce monde d'objets réels ou virtuels et les espaces conceptuels présents dans les têtes de quelque 40 millions de spectateurs attendus est évidente. Cette communication traite de détails pratiques de ce projet ainsi que de la base conceptuelle du futur système d'information des visiteurs.
Deux impératifs sont au centre du système : 1) traduire le contenu des démonstrations dans les quatre langues officielles (anglais, français, espagnol, allemand) ; 2) créer une interface assez simple pour permettre à tout visiteur intéressé d'avoir une réponse rapide et efficace.
L'instrument conceptuel sous-jacent est un thésaurus quadrilingue qui fonctionnera comme une banque de connaissances, et où l'anglais joue le rôle de langue pilote. Il est composé de quelque 3 000 descripteurs, locutions spécialement prévues pour la recherche (search texts) et correspondant à autant de sujets de l'exposition. Le système distingue le traitement des phénomènes propres à chaque langue (synonymie et polysémie) et celui des relations de sens qui sont valables pour les quatre langues. La structure relationnelle, qui innove par rapport au thésaurus traditionnel, comporte cinq relations de base : générique, partitive, bénéficiaire, de nuisance, géographiquement partitive. À chaque descripteur du thésaurus correspond un texte de quelques lignes (en quatre langues) qui décrit le sujet, accompagné d'image et de son (nutshell, cellule).
La difficulté essentielle consiste à préserver autant que possible l'homogénéité et la cohérence conceptuelles et relationnelles de ce thésaurus.
Depuis plus de trente ans, les thésaurus sont des outils de grande valeur en recherche de l'information. Au début, la fonction principale des thésaurus était d'aider l'indexeur à transformer les concepts et leurs relations, tels qu'ils sont exprimés dans le langage des documents, en un langage d'indexation plus normalisé à destination des catalogues et des bases de données. Dans les années 1990, une nouvelle fonction du thésaurus est apparue : guider l'utilisateur vers les meilleurs termes d'interrogation. En dépit de ce rôle nouveau, la conception des thésaurus est restée la même dans l'ensemble. Cette communication recense les fonctions exigées d'un thésaurus en rapport avec la recherche d'informations. Les résultats sont présentés sous forme de propositions générales et aussi sous forme d'exemples empruntés à des situations réelles. On propose des améliorations de la fonctionnalité, avec l'exemple d'un prototype d'article de thésaurus. Le rôle de nouvel outil conceptuel se répercute aussi sur le processus de construction. C'est pourquoi l'article se termine par la discussion de nouvelles méthodes de construction du thésaurus.
Cette étude vise à évaluer les comportements de recherche aléatoire (browsing) des utilisateurs finaux qui consultent sur le Web une base bibliographique informatisée (OPAC = Online Public Access Catalog = catalogue en ligne en libre accès). On s'intéresse spécialement à la stratégie de recherche par boucle de pertinence (Browsing Relevance Feedback = BRF). Les résultats de cette étude montrent que cette stratégie est populaire chez les utilisateurs. On découvre aussi que les relations impliquées par cette stratégie sont généralement syntagmatiques.
Les documents constituent un réseau riche et potentiellement très utile d'interrelations, à la fois entre eux et entre les termes qu'ils contiennent. Mais la richesse même de ces relations et la variété des applications possibles font qu'il est difficile de les présenter sous un format utilisable. Cette communication décrit une méthode permettant à l'utilisateur de visualiser un grand nombre de relations entre des documents ou entre des entités. On présente deux illustrations visuelles grâce auxquelles un utilisateur peut accéder à de nouveaux éclairages et à une meilleure compréhension en explorant de façon interactive ces schémas relationnels à plusieurs niveaux de spécificité.
Cette communication passe en revue les problèmes relatifs à l'utilisation de la classification décimale de Dewey (DDC) dans le cadre de l'extension attendue de la recherche à base de « vues » (fenêtrage) aux catalogues en libre accès informatisés (Online Public Access Catalog = OPAC). Des systèmes de recherche à base de vues sont actuellement affectés à l'utilisation des hiérarchies de concepts de la Dewey dans l'OPAC d'une université. Ils expérimentent les principes des techniques de classification à base exclusive de facettes à la fois pour la recherche bibliographique et pour la recherche sur des bases de données institutionnelles. On étudie les questions d'efficacité et de rentabilité dans l'organisation et la classification mouvante des connaissances à l'intérieur des bibliothèques, afin de montrer pourquoi les schémas de classification à base exclusive de facettes n'ont pas encore déployé toutes leurs potentialités dans les bibliothèques. La solution à leur introduction dans les OPACs réside dans l'utilisation d'une classification à facettes comme outil d'indexation précoordonné et dans l'abandon du classement unidimensionnel des ouvrages sur les rayons. La nécessité de garder une position physique relative unique sur les rayonnages est la source principale de difficulté en classification. De grands progrès aujourd'hui latents seront réalisés quand des classements systématiques de sujets offrant aux OPACs des vues alternatives seront couplés avec les techniques de butinage et de recherche à base de fenêtrage. On économisera du temps et de la peine, et on accroîtra l'efficacité, puisqu'on disposera d'un moyen d'accès rapide aux informations. On peut prévoir un avenir pour une classification Dewey débarrassée de sa notation décimale.
Cette communication décrit une interface graphique pour faciliter le parcours et la construction d'une classification à facettes, interface fondée sur l'analyse formelle des concepts. Chaque facette d'un thésaurus est représentée sous la forme d'un treillis mathématique qui est ensuite subdivisé en composants. Les utilisateurs peuvent naviguer graphiquement à travers l'interface (une application Java) en cliquant sur les termes qui relient les facettes et leurs composants. Comme il existe de nombreuses applications affectées aux thésaurus dans le domaine de la représentation des connaissances, ce type d'interface graphique a des chances de se révéler très utile.
L'article explique comment on accommode actuellement la classification décimale de Dewey (DDC) pour qu'elle soit utilisée comme guide des matières sur l'Internet.
Ces préparatifs sont conduits en trois phases :
Les phases 1 et 2 sont traitées en détail.
On décrit une technologie destinée à faciliter l'acquisition, la visualisation et la manipulation de vocabulaires volumineux par l'adjonction de structures conceptuelles. Elle est utilisable pour la production de dictionnaires, les bases de données terminologiques, les thésaurus, les systèmes de classification bibliographiques, etc. Les éléments essentiels de cette technologie sont une interface lexicographique pour l'utilisateur, une description lexicale à structure variable, la possibilité illimitée de distinguer différentes interprétations d'un mot, un langage formel conceptuel, la transformation automatique de formules abstraites en structures graphiques, la possibilité de manipuler ces structures et de les retransformer en formules. Dans le langage conceptuel, on trouve des notations pour les concepts à définir. On peut construire interactivement la structure des concepts que l'on définit. Cette technologie facilite la production de vocabulaires volumineux par des structures qui représentent le sens des mots. Les structures conceptuelles et les langages documentaires pour l'indexation et la recherche peuvent être construits séparément puis reliés par des liens d'association.
Dans cette communication, nous étudierons la possibilité de réorienter les systèmes de traitement du langage naturel (NLP = Natural Language Processing) non seulement vers l'extraction de termes et de leurs relations sémantiques, mais aussi vers une série d'autres fonctions : stockage, recherche et récupération de combinaisons lexicales pour les langues de spécialité (LSP = Language for Special Purposes), fourniture des contextes et d'autres informations sur les termes en intégrant de nouvelles interfaces aux bases de données terminologiques, aux systèmes de gestion de termes et aux systèmes actuels des langues de spécialité. Le but de la création de ces interfaces est d'accroître l'efficacité de ces systèmes et d'améliorer l'analyse textuelle à visée terminologique. Du fait que l'extraction automatique de termes est le pivot de nombreuses applications telles que la traduction automatique (TA), l'indexation, la rédaction technique, la construction de thésaurus et la représentation du savoir, l'exploitation de cette technique doit avoir un impact important dans ces domaines.
On a souvent avancé que les termes (spécialisés) ne sont pas sujets à des variations. Par ailleurs, nombre d'organisations de normalisation et de manuels de terminologie adoptent une approche autoritaire pour la formation et l'usage des termes, et condamnent les variations. Pourtant nous croyons que les variations ne sont pas dues à l'arbitraire ou à la négligence, mais plutôt qu'elles sont motivées et utiles dans un texte scientifique. Nous faisons l'hypothèse que la classification multidimensionnelle est un des facteurs déterminants du choix des termes, et nous présentons une étude empirique de cette influence dans laquelle nous examinons les variantes de termes en contexte dans un corpus d'un million de mots spécialisé dans le domaine de la technologie des scanners optiques.
Il existe au monde de nombreuses bases de données bibliographiques indexées avec la CDU. La recherche documentaire est difficile dans ces bases pour quiconque n'est pas expert dans la pratique de cette classification. Les indices peuvent être très complexes, et souvent il faudrait être capable d'interroger sur une seule partie de l'indice. Dans cette communication, on propose des algorithmes permettant la décomposition d'indices CDU complexes et l'addition d'une description aux indices simples résultant de cette opération. Dans la seconde partie de l'article, on examine la validité des textes obtenus.
Le CIRCT, le Centre de documentation italien de terminologie technique et scientifique, est un réseau de sites conçus pour gérer et retrouver les données terminologiques. En raison de la multiplicité des structures des bases de connaissances qui composent le CIRCT et aussi en raison de la nécessité de les conserver, on a créé un système d'interface pour la gestion intégrée des divers systèmes de classification. Le travail a commencé par l'analyse et la comparaison des classifications ICC (Information Coding Classification) et ICS (International Classification for Stabdards). On a défini des procédés automatiques pour la gestion intégrée des classifications et pour la comparaison et l'appariement de leurs classes. Cette communication décrit les caractéristiques structurelles différentes de ces deux systèmes, avec une présentation formelle de la typologie des relations entre les classes, un recensement des problèmes rencontrés au cours de cette recherche et un état des résultats obtenus.
Cette communication traite sur le plan général des problèmes des domaines du savoir marginalisés, et en particulier des études féministes ou des études sur les femmes dans la classification décimale de Dewey. Les auteurs construisent et appliquent un cadre théorique qui rend perméables les frontières de cette classification. Ils proposent une série d'approches permettant de créer des espaces sémantiques paradoxaux, des emplacements qui concilient à la fois les marges et le courant dominant. Les changements, extensions et options proposés en conséquence pour la DDC sont disponibles par l'intermédiaire d'une interface conçue dans ce dessein.
Cette communication propose une exploration de la nature des documents à base de langages graphiques à partir des points de vue contrastés de la structure et de la fonction, en considérant la structure des documents comme un objet orienté dans l'espace. En utilisant des principes de construction dérivés de la théorie de la forme [gestalttheory] et de la doctrine du Bauhaus selon laquelle la forme suit la fonction, l'article s'intéresse aux relations entre structure et fonction dans toute l'étendue du domaine des documents à base de langages graphiques.
Compte rendu d'une recherche visant à évaluer les représentations textuelles et les représentations iconiques des documents d'images animées, dans une perspective cognitive. L'étude a mesuré le degré de correspondance entre les documents animés et leurs représentations, tant textuelles qu'iconiques, en dehors du cadre de la recherche documentaire, avec ou sans contraintes spécifiques. On a utilisé la méthode du positionnement multidimensionnel pour mesurer la dispersion dans l'espace des jugements humains concernant les documents-films intégraux et leurs représentations. On s'est servi de la congruence des jugements concernant les documentsfilms intégraux et leurs divers modes de représentation pour en mesurer le degré de représentativité. Sur la base de ces résultats, on a créé un modèle cognitif de la représentation des documents-films comportant à la fois les représentations visuelles et les représentations iconiques.
La recherche des images est analysée comme un processus cognitif. On pourrait bâtir un modèle de ce genre sur le paradigme physique de la science de l'information, fondé lui-même sur le modèle général proposé par Shannon et Weaver. Dans une perspective différente, quelques-unes des approches cognitives possibles modélisent :
Le premier modèle a une grande capacité théorique d'intégration des trois autres. D'un point de vue général, les interactions dans la recherche d'informations constituent des processus de communication dans lesquels l'aspect sémantique et l'aspect pragmatique ont autant d'importance que la transmission d'un message. Dans ce contexte, les images et le texte constituent deux formes distinctes de communication profondément enracinées dans notre système cognitif, et qui produisent des formes de connaissance différentes. Malgré tout, la recherche d'images exige le recours à la conceptualisation, qui nécessite une sorte de transfert entre concepts et images de la part du système, de l'utilisateur ou du médiateur, c'est-à-dire du professionnel.
La linguistique ne peut pas être le seul critère pour évaluer la pertinence d'un thésaurus. La psycholinguistique, la psychologie cognitive et la psychologie sociale peuvent aussi nous aider à comprendre comment les utilisateurs apprennent à maîtriser cet outil. En fait, l'utilisation d'un thésaurus exige de fortes capacités d'abstraction qui peuvent varier en fonction de la façon dont cet outil est structuré. Dans le cadre de l'école, les difficultés que crée la manipulation de concepts par l'intermédiaire d'un langage contrôlé sont plus apparentes en raison de la jeunesse des utilisateurs. Cette réflexion nous amène à envisager la possibilité d'offrir un apprentissage aux usagers d'un thésaurus, et la façon dont cela pourrait faciliter le partage des connaissances.
L'argumentation de cette communication consiste à présenter les concepts structuralistes de base sur le langage et les systèmes de signes, considérés comme des formes à deux niveaux - forme d'expression et, ici particulièrement, forme de contenu - et à appliquer ces concepts aux phénomènes de représentation du contenu des documents.
Sur la base de cette argumentation, l'article s'interroge sur la notion d'« organisation des connaissances » : en quoi consiste-t-elle, et en quel sens est-il possible d'organiser les connaissances ? L'article émet quelques réserves sur la conception de la représentation du contenu comme une organisation de connaissances au sens fort, et propose d'utiliser à la place la notion de (méta) documentation, définie comme une forme de communication concernant des documents.
Cette communication s'intéresse à l'indexation de documents textuels volumineux et structurés. De plus nous limitons notre domaine aux documents techniques, comme des manuels d'entretien et d'utilisation. Ceci implique d'abord que les documents décrivent un monde fermé, ensuite qu'ils sont utilisés par des experts du domaine. Nous proposons une méthode pour extraire du texte le vocabulaire d'indexation à l'aide de procédés linguistiques et numériques, puis pour structurer le vocabulaire comme pourrait le faire un thésaurus. Notre but est d'aider l'utilisateur à retrouver rapidement les seuls extraits du texte dont il a besoin.
Cette étude envisage la possibilité d'utiliser les classes principales en usage chez les chercheurs d'un domaine comme moyen de structurer l'organisation des connaissances de ce domaine. Ce projet a été expérimenté à l'aide d'un échantillon de rapports de recherche traitant du comportement informationnel des milieux de la santé (par exemple médecins, infirmières et malades). Il a été relativement facile d'identifier des systèmes de grandes classes dans l'échantillon de textes. La configuration des systèmes de classes utilisés dans les textes analysés manifeste un schéma largement cohérent. Un grand nombre de ces rapports de recherche utilisaient un type de systèmes de classes « diagnostic, traitement, centre de soins » en rapport avec le comportement informationnel des médecins. Mais il y avait de nombreuses variantes de ce schéma de classes générales. On a trouvé aussi de nombreux emplois de systèmes de classes alternatifs (ex : secteurs de spécialité, types d'information, dilemmes), qui semblent prouver l'applicabilité et l'usage de points de vue alternatifs pour les situations étudiées. Les questions essentielles pour l'avenir semblent être la spécification des relations entre les systèmes de classes des différents rapports de recherche et la visualisation des nombreuses relations identifiées, y compris l'évolution des systèmes de classes dans le temps.
Après avoir rappelé la logique de l'offre propre aux systèmes d'information, nous explicitons notre démarche, qui prend en compte l'aspect pragmatique de l'information et vise à analyser les pratiques informationnelles d'un opérateur (ou d'un groupe) au cours de son activité professionnelle. Nous présentons un modèle d'activité, la rédaction d'arrêtés réglementaires. Puis nous tentons une première modélisation de cette activité en vue de concevoir un outil logistique d'accompagnement et d'aide à l'information.
Cette communication traite de la recherche documentaire dans des documents textuels volumineux. Nous nous sommes particulièrement intéressées à l'indexation de ces types de documents et nous avons centré notre étude sur deux problèmes : la partition des documents en unités documentaires, et la méthode d'indexation de ces unités. Plusieurs expériences nous ont permis d'étudier ces problèmes en relation avec la structure des documents.
Cette communication décrit partiellement un projet de recherche universitaire qui vise à construire une méthode de conception impliquant des produits interactifs multimédias pour l'acquisition de connaissances. L'objectif de la méthode est de concevoir des produits multimédias vraiment interactifs, et ainsi de présenter une nouvelle forme d'écriture. Elle est fondée sur un paradigme constructiviste qui implique un point de vue systémique et une approche en réseau telle qu'elle est proposée par la sociologie du transfert. Toutes nos idées sont en fait fondées sur la distinction entre deux niveaux d'information, le niveau interne et le niveau sensible. Toutefois nous avons choisi un modèle courant, le modèle orienté objets, qui nous permet de représenter les éléments de chaque niveau. Afin de prouver la validité de ce procédé, un prototype est en préparation. Il consiste à transposer un cours qui traite des télécommunications et des réseaux en outil pédagogique multimédias. Afin d'être en mesure de construire ce prototype en prenant en compte les étapes habituelles (écrire la liste des besoins, choisir la technologie nécessaire, modéliser, construire le schéma, réaliser et évaluer), et ensuite de mesurer la méthode de conception, une phase d'analyse et d'appréciation du cours actuel est nécessaire. Cette analyse doit nous permettre d'identifier les conditions du transfert des connaissances et de prévoir les éléments de la liste des besoins pour ce produit hypermédia.
Cette communication examine le rôle des attributs dans la modélisation conceptuelle fondée sur le modèle entité/relation. Il explore les interactions entre attributs et relations dans le cadre de : 1) la modélisation des données ; 2) l'emploi du langage naturel. On découvre que l'attribution est un type de relation important. Le manque de différenciation entre attributs et relations conduit à reconsidérer la façon dont les relations hiérarchiques devraient être traitées à la fois dans la pratique et dans la théorie de l'organisation du savoir.
Cette communication présente un nouveau modèle dédié à la représentation d'ontologies. Nous y présentons notre propre définition du terme d'ontologie, et nous y définissons les concepts, objets, attributs et ensembles manipulés. Nous introduisons la notion de « différence spécifique », qui est au centre de notre travail. Chaque concept possède en effet une différence spécifique, qui est une sorte d'attribut lui appartenant et qui constitue sa caractéristique principale. Lors de la construction d'une ontologie, celle-ci permet de spécifier quelle caractéristique est la plus représentative d'un concept, dans le but de différencier celui-ci de ses frères et de le spécialiser par rapport à son père. Une ontologie par différenciation (en utilisant la notion de différence spécifique) est alors constituée d'une hiérarchie de concepts, chaque concept étant défini à partir d'un concept plus général en lui ajoutant une différence spécifique. La construction d'une telle ontologie implique l'utilisation d'une méthodologie particulière d'acquisition de connaissances. Cet aspect de notre travail est aussi abordé dans ce document. La méthodologie d'acquisition est définie comme une combinaison de plusieurs techniques existantes, adaptées et particularisées pour l'acquisition d'ontologies par différenciation.
Après étude des relations entre deux mots (deux noms) qui forment un terme composé, on examine la relation entre les concepts correspondants. L'impossibilité d'établir une liaison entre deux concepts qui n'ont aucun trait commun rend difficile l'application de la théorie du concept aux problèmes de la recherche documentaire. On propose un autre type de liaison, différente de la liaison par cooccurrence, et on en étudie les caractéristiques. Il s'est avéré que l'une de ses nouvelles caractéristiques est comparable à la relation par deux points (en rapport avec) de la CDU. On montre la possibilité d'établir trois types de liaisons, y compris la liaison interconceptuelle de Wüster. On montre aussi que les subdivisions peuvent être remplacées par des termes de liaison.
Le modèle structurel des bases de données est fondé sur la notion d'entité. Les fondements ontologiques et épistémologiques, à leur tour, caractérisent le concept d'une entité. Ces fondements proviennent des traditions de Platon et d'Aristote, qui forment et contraignent à la fois la représentation des connaissances dans les bases de données. On explique les principes de ces cadres ontologiques et épistémologiques, et on en montre les applications aux problèmes de construction de bases de données et de prestation d'informations.
Étant donné la pauvreté des recherches touchant aux préférences de l'utilisateur en matière de contenu et de présentation des métadonnées (zones de la notice bibliographique), on a entrepris sur une durée de trois ans une étude impliquant un échantillon des bibliothèques canadiennes publiques et universitaires et de leurs utilisateurs. On a repéré des inadaptations entre d'une part les préférences des utilisateurs et d'autre part la disponibilité et la présentation des éléments bibliographiques dans certains systèmes canadiens actuels d'accès aux connaissances sur la toile (Web). On a par conséquent créé des prototypes de présentation idéale et on les a évalués. Au total, les utilisateurs finals ont donné la préférence aux systèmes contenant des éléments bibliographiques brefs, concis et convergents, restreints à une présentation claire sur un seul écran, et enrichis par une série de relations variées de hiérarchie, de voisinage et d'équivalence.
Les langages de transfert de l'information (ITL) sont des langages de représentation et de recherche des contextes de production et d'utilisation de l'information, utilisables dans un cadre de bibliothèques informatisées.
Ici le transfert de l'information est défini comme un acte non seulement technique mais aussi social, qui privilégie non pas les relations entre le système, les documents et l'utilisateur, mais exclusivement la relation entre les personnes qui produisent et qui utilisent l'information. Ce qui justifie la création des ITL est que la simple indication du thème ne permet pas à l'utilisateur de trouver l'information qui lui convient. La méthode envisagée pour résoudre ce problème consiste à relier les propriétés du document à leurs conditions de production et à leurs applications pratiques potentielles. On insiste ici sur le fait que l'auteur du document a des intentions de communication déterminées, en accord avec ses activités sociales, et que l'utilisateur du document a des besoins d'information en accord avec ses activités du moment. Ma thèse est que, si on rend ces intentions de communication lisibles pour les utilisateurs, ils pourront choisir l'ensemble de documents le plus utile pour leur pratique.
Cette expérience, centrée sur le comportement des utilisateurs, vise à étudier la représentation qu'ils construisent du sujet de leur interrogation et à souligner l'influence que peut avoir un thésaurus graphique sur leurs modèles mentaux et sur leur comportement d'interrogateur. On prend en compte le degré d'expertise des utilisateurs dans le domaine en question. Les résultats montrent à quel point il est difficile de structurer un domaine. Ils soulignent encore à quel point un thésaurus graphique pourrait les aider dans cette tâche, mais aussi son rôle limité dans la tâche d'interrogation. Ils nous poussent à réfléchir à la forme qui convient le mieux à l'interface conceptuelle, et à la diversité des liens qui doivent être pris en compte.
Le but de cette communication est de préciser quelquesuns des caractères structuraux des schémas de classification utilisés dans les guides (on dit aussi « répertoires ») des moteurs de recherche pour organiser les sources d'information sur l'Internet. Les moteurs de recherche ont été étudiés au niveau des classes de niveau supérieur, et on a analysé la hiérarchie complète pour trois sujets spécifiques dans quatre moteurs : Excite, Infoseek, Lycos et Yahoo. On a constaté qu'il existe des différences majeures entre d'une part les classes principales des moteurs de recherche et d'autre part celles que l'on trouve dans les schémas classiques des classifications bibliographiques comme la classification Dewey, la CDU et celle de la bibliothèque du Congrès. Il y a des lacunes importantes dans la couverture des sujets au niveau des classes principales dans les moteurs de recherche, et la tendance générale est d'utiliser l'approche « orientée sujets » pour la formation des classes, plutôt que l'approche « orientée discipline ». La subdivision en classes principales est conforme aux structures arborescentes, mais à ce propos on a repéré un certain nombre d'anomalies. Une autre déviance par rapport à la théorie des classifications bibliographiques est qu'on y emploie des principes de division différents pour former des classes de même niveau. Au cours d'une analyse de l'ordre des termes dans un sujet composé, on a rencontré de nombreux exemples en conformité avec les principes des classifications bibliographiques, on a aussi noté à cet égard quelques incohérences.
Le langage de marquage des connaissances conceptuelles (CKML), application de XML, est une nouvelle norme créée pour le traitement spécifique des connaissances conceptuelles en ligne (Kent et Shrivastava, 1998). Le langage CKML suit la philosophie du traitement de connaissances conceptuelles (Wille, 1982), une approche logique de la représentation du savoir et de l'analyse de données, qui fait appel au développement de méthodes et de techniques propres à aider les gens dans leur pensée rationnelle, leurs jugements et leurs actions. CKML a été créé et est utilisé dans le cadre du système WAVE de découverte et de recherche d'informations sur le Web (Kent et Neuss, 1994), en tant que norme pour le traitement spécifique des connaissances conceptuelles.
L'activité scientifique représente un domaine fondamental de l'organisation du savoir en raison de son utilisation prolifique de nouvelles technologies de l'information et de son réseau serré de chercheurs des organismes officiels, de l'industrie et de l'université, qui sont à la fois des producteurs et des consommateurs de connaissances. La base de données ALCOM/NIST sur les structures hétérogènes est un système d'information en ligne qui implique des chercheurs universitaires, des agences gouvernementales et des partenaires industriels dans le projet ALCOM/NIST sur les structures hétérogènes. La base de données est la première phase stade d'une base de connaissances multi-phases sur la science des cristaux liquides, la Base sur la recherche fondamentale et appliquée concernant les cristaux liquides. Cette communication décrit le fonctionnement du système de la base de données sur les structures hétérogènes et l'intégration à la base de données d'un outil préexistant, le Thésaurus pour la recherche et les applications sur les cristaux liquides. La première partie de la communication montre comment la conception de la base de données tient compte des caractéristiques suivantes des utilisateurs impliqués dans le projet : interdisciplinarité, recherche fondamentale et recherche appliquée, utilisateurs experts et utilisateurs débutants, groupes de population divers (université, organismes officiels, industrie). La seconde partie explique comment les auteurs développent un cadre de structure de connaissances pour satisfaire ces spécificités.
L'expansion des ressources médicales et universitaires sur l'Internet a accru chez les étudiants, les chercheurs et les praticiens d'infirmerie et de médecine les motivations et les occasions d'accéder aux ressources de la Toile. Toutefois, les différences individuelles entre les utilisateurs et la diversité des mécanismes de recherche d'informations fournis par les ressources médicales de la Toile peuvent se combiner pour réduire les avantages de ces ressources. Dans le cours d'une étude conçue pour une analyse qualitative de ces différences entre les individus et entre les systèmes, on a découvert qu'il serait important de disposer d'une méthode fiable de représentation des données de la navigation sur la Toile pour soutenir les méthodes traditionnelles de représentation et d'analyse.
La méthode de représentation graphique de ces données navigationnelles et l'aide que cette technique peut apporter à l'analyse qualitative des interactions utilisateur-système sont décrites en détail, et illustrées par un exemple spécifique tiré des données collectées. En outre, cette étude présente aussi quelques découvertes préliminaires issues de méthodes graphiques plus traditionnelles.
En vue de construire une encyclopédie électronique, nous proposons une méthodologie fondée sur la méthode orientée objets qui permet l'analyse et la décomposition des domaines de l'encyclopédie ainsi que l'identification des objets, des classes, des opérations et des relations. Nous décrivons aussi les caractéristiques d'un objet générique appelé document-encyclopédie de base, qui, si on l'expérimente sur un exemple, conduit aux scénarios de base de l'encyclopédie. Le regroupement de ceux-ci grâce à des liens externes conduit au scénario final de l'encyclopédie.