Index des revues

  • Index des revues
    ⇓  Autres articles dans la même rubrique  ⇓

    La recherche d'informations sur l'Internet

    Répertoires et moteurs de recherche

    Par Pierre-Yves Duchemin, Bibliothèque nationale de France

    Le réseau Internet est utilisé dans la communauté scientifique et documentaire comme un nouveau et puissant moyen de communication. Grâce aux protocoles TCP/IP, Internet permet l'interconnexion d'un grand nombre de réseaux entre un grand nombre de pays. L'Internet (International network), en français «l'interréseau », est un réseau de réseaux qui peuvent être aussi bien des réseaux locaux que des réseaux à longue distance. La participation de ces réseaux constitue ainsi un seul réseau virtuel à la disposition de l'utilisateur.

    À l'origine, Internet permettait d'échanger du courrier via la messagerie électronique, de participer à des débats sur les sujets les plus divers et les plus techniques grâce aux listes de discussion et de transférer des fichiers. Très tôt, il a servi de support à l'interrogation de catalogues de bibliothèques ou de banques de données documentaires. À côté de ces premiers services, de nouveaux services facilitant la coopération et l'accès à l'information sur réseau sont apparus, notamment les serveurs FTP, Telnet, Gopher, WAIS et, plus récemment, World Wide Web. Ce dernier système a été un immense progrès, non seulement en gérant le texte, l'image fixe ou animée et le son, mais aussi en intégrant tous les autres serveurs d'information et en rendant «transparentes» leurs particularités pour l'utilisateur. Les serveurs disponibles sur l'Internet sont très nombreux mais l'information qu'on y trouve, si elle est très variée et en très grande quantité, est malheureusement parfois de qualité inégale. Pour séparer le bon grain de l'ivraie », de nouveaux services de recherche et de découverte d'information deviennent indispensables.

    Le fonctionnement

    Des millions d'ordinateurs de technologies différentes, fonctionnant sur des systèmes d'exploitation différents, utilisant des logiciels différents, etc., réussissent à communiquer entre eux grâce au protocole TCP/IP.

    Les protocoles TCP/LP

    Le protocole TCP/IP (Transfer control protocol/Internet protocol) regroupe l'ensemble des protocoles de télécommunications qui gère la transmission des données en permettant l'interconnexion de plusieurs systèmes sur l'Internet. Il se compose de deux grands types de normes : les normes TCP et les normes IP. Très schématiquement, les normes TCP découpent les données à transmettre en paquets, chaque paquet étant identifié par l'adresse de l'expéditeur et par la liste des données qu'il contient. Les normes IP ajoutent l'adresse du destinataire. Pendant la transmission, des routeurs orientent les paquets sur l'itinéraire le mieux adapté. À l'arrivée des données, l'ordinateur récepteur vérifie l'adresse IP, le contenu des paquets TCP et reconstitue l'ensemble des données.

    URL

    Une adresse URL (Uniform Resource Locator) est l'adresse d'une application disponible sur l'Internet, par exemple http://www.bnf.fr. La première partie de l'URL identifie le protocole de communication : http : hypertext transfer protocol ; ce pourrait être également Gopher ou Telnet, etc. La seconde partie de l'URL identifie le serveur www.bnf.fr : dans l'ordre inverse, serveur français (fr) de la Bibliothèque nationale de France (bnf) sur le Web (www).

    L'URL ne désigne pas seulement un site Internet sur lequel on se trouve ; elle peut également donner les coordonnées électroniques d'un fichier en comportant des répertoires, sous-répertoires et fichiers. Il est ainsi possible d'accéder directement à un fichier précis : par exemple, les URL http://www.bnf.fr/web-bnf/catalog/ opaline.htm et http://www.bnf.fr/ enluminures/accueil.htm sont respectivement les adresses de la page de connexion à BN-OPALINE et la page d'accueil du serveur des 1 000 enluminures « Charles V et son temps

    L'URL est l'élément indispensable qu'il faut connaître... ou réussir à trouver pour accéder à une information sur l'Internet. À noter qu'une URL répond à une syntaxe extrêmement rigoureuse et que, sous peine d'interrogation infructueuse, il est absolument indispensable de respecter majuscules, minuscules, caractères spéciaux et caractères de ponctuation.

    Les ressources de l'Internet

    L'Internet offre trois grandes familles d'applications : le courrier électronique, la connexion à distance et le téléchargement de fichiers.

    Le courrier électronique

    Le courrier électronique (e-mail) constitue l'application la plus répandue sur l'Internet. Il permet de communiquer avec n'importe quel autre utilisateur dans le monde dont on connaît l'adresse électronique. Le principe en est simple : une boîte aux lettres électronique occupe un espace mémoire sur le disque dur de l'ordinateur-hôte dédié à la messagerie électronique ; tout nouveau message reçu est stocké dans cette boîte. Le courrier électronique permet d'envoyer des messages à un ou plusieurs utilisateurs ; il permet d'attacher au message un document saisi sur traitement de texte.

    Les listes de messagerie

    Il est également possible de s'abonner à une liste de messagerie. L'intérêt de cette fonctionnalité est d'être en contact avec des groupes de personnes qui ne parlent pas forcément la même langue, mais qui, toutes, partagent un intérêt commun. Les abonnements aux listes permettent de recevoir une documentation toujours à jour sur un sujet donné.

    Les nouvelles

    Il existe une autre façon de communiquer sur l'Internet avec des interlocuteurs du monde entier, dans n'importe quelle langue et sur n'importe quel sujet. Les groupes de nouvelles (News) permettent également de partager un intérêt commun avec de nombreux utilisateurs. À l'inverse des listes de messagerie, les messages ne sont pas versés automatiquement dans la boîte à lettres électronique et impliquent l'utilisation d'un programme de lecture qui permet la sélection et la sauvegarde des messages intéressants. La plupart des comptes Internet donnent accès à un programme de lecture de nouvelles. Comme dans une messagerie, chaque message est identifié par son expéditeur, son thème et sa date de rédaction.

    La connexion à distance

    La connexion à distance d'un ordinateur vers un autre est possible sur l'Internet grâce à divers outils.

    Le téléchargement de fichiers

    L'Internet permet l'accès à des informations textuelles, sonores, ou graphiques composées d'images fixes ou animées. Il existe également beaucoup de ressources gratuites (freewares ou sharewares) qui peuvent être des programmes, des logiciels ou des fichiers. Il est possible, grâce à un protocole FTP (file transfer protocol), d'envoyer ou de recevoir des fichiers stockés dans un espace disque protégé et géré indépendamment du système d'exploitation du serveur pour garantir la sécurité d'accès. Une bibliothèque est ainsi en mesure de récupérer des données bibliographiques d'un site distant.

    Certains ordinateurs disposent du programme de transfert de fichiers FTP. La procédure FTP normale consiste ainsi à utiliser le nom d'utilisateur et un mot de passe. Elle permet de butiner dans un répertoire et de sélectionner les fichiers à transférer, mais ne permet pas de les lire. Le protocole FTP ne permet pas l'utilisation du menu d'interrogation de la base de données, ni l'envoi de messages électroniques. La consultation ne peut s'effectuer qu'après transfert du fichier sur l'ordinateur destinataire.

    Une autre procédure, « Anonymous FTP » (FTP anonyme) permet de se connecter comme visiteur anonyme à un serveur pour transférer un fichier ou un groupe de fichiers vers son ordinateur. Pour être accessibles à tous les utilisateurs du réseau, les fichiers sont placés dans un espace disque pouvant être lu par tous. Cette procédure anonyme ne nécessite pas de posséder un compte Internet. Néanmoins, l'utilisateur doit entrer son adresse électronique en guise de mot de passe. L'administrateur du service peut ainsi savoir qui consulte sa base de données. Cette procédure est très couramment utilisée pour télécharger des fichiers.

    La procédure FTP est très riche et fourmille d'informations utiles et variées. Son inconvénient majeur est qu'il faut d'abord savoir sur quel serveur chercher pour trouver une information. Ensuite, une fois le serveur localisé, il est nécessaire de le parcourir par sa structure arborescente, ce qui peut parfois prendre du temps.

    Accès aux services de recherche d'information sur l'Internet

    Telnet

    Telnet est un ensemble de programmes qui émule un micro-ordinateur en terminal d'un ordinateur-hôte. Il est ainsi possible d'ouvrir une session comme un utilisateur local et d'utiliser les applications et les programmes disponibles sur la machine-hôte. Un accès Telnet est prévu pour la seule consultation d'un catalogue et non pour la récupération de notices bibliographiques. Il s'effectue généralement par l'accès public en ligne (OPAC) : l'utilisateur distant interroge ainsi la base de données exactement sur la même configuration d'écran et avec le même menu que s'il se trouvait physiquement dans l'établissement. Cela suppose la connaissance préalable du menu d'interrogation de l'OPAC dans sa langue originale.

    Une connexion via Telnet s'effectue grâce à un émulateur de type VT ; l'émulateur le plus courant est le VT 100, mais il existe également le VT 220 et le VT 320. Il est possible d'interroger un site Telnet par son adresse numérique (adresse IP) ou par son - « mnémonique » : telnet://opale02.bnf.fr ou 193.50.133.201 (BN-OPALE), telnet://opaline02.bnf.fr ou 193.50.133.202 (bn-opaline).

    http://www.lights.com/hytelnet

    http://moondog.usask.ca/hytelnet

    http://Iibrary.usask.ca/hytelnet/

    Hytelnet est le répertoire international des catalogues de bibliothèques accessibles selon Telnet. Sans prétendre à une exhaustivité complète, c'est de loin l'outil le plus puissant disponible pour accéder à des données bibliographiques.

    Gopher

    À la différence de Telnet qui nécessite au préalable de connaître l'adresse électronique de l'ordinateur sur lequel on veut se connecter, Gopher est un programme de balayage qui intègre les adresses des différents sites Internet. Gopher est ainsi très facile d'utilisation et beaucoup plus convivial que Telnet qui oblige à utiliser des lignes de commande Unix.

    Gopher est à la fois un système d'information et un système de navigation sur réseau. Comme système d'information, la structure de Gopher est arborescente et fonctionne à l'aide de menus ; l'utilisateur dispose de plusieurs commandes pour explorer les fichiers. Comme système de navigation, Gopher organise les serveurs d'information pour faciliter la navigation et la découverte d'informations. Le protocole utilisé est propre à Gopher. Bien que moins utilisé depuis le développement du Web, Gopher reste un serveur très répandu sur l'Internet grâce à sa souplesse d'utilisation et à son interface qui ne nécessite aucune interface graphique : un simple terminal télétype suffit pour consulter un serveur Gopher. L'inconvénient majeur de Gopher est sa structure fixe et arborescente qui peut être rapidement parcourue si l'application consultée est de petite taille ; dans le cas contraire l'accès à l'information pertinente n'est pas immédiatement garanti.

    WAIS, Archie, Veronica

    WAIS, Archie et Veronica sont des programmes de recherche qui permettent à l'utilisateur d'accéder à des ressources sur l'Internet. Ce sont des outils très utiles quand on sait ce que l'on cherche, mais qu'on ne sait pas où le trouver. L'inconvénient est qu'aucun d'eux ne couvrant l'ensemble des applications Internet disponibles, il faut généralement les interroger tous les trois.

    WAIS

    WAIS (Wide area information server) existe depuis 1991 et est une des premières applications de la norme Z39.50.

    C'est un logiciel du domaine public qui fonctionne selon le modèle client/serveur. WAIS est un serveur d'information conçu pour faciliter la recherche de documents. II indexe tous les termes des documents recensés pour créer un fichier inverse (index). C'est un outil de recherches utilisé pour effectuer des requêtes sur des index en texte intégral. L'utilisateur doit sélectionner un index et définir en langage dit « naturel le ou les mots sur lesquels il désire effectuer sa recherche ; en réponse, WAIS affiche la liste des documents qui, dans l'index sélectionné, contiennent les mots recherchés. L'inconvénient majeur de WAIS est de ne pas fournir une description correcte d'une base et de ne proposer qu'un fichier source très succinct créé par l'administrateur de la base.

    Archie

    Archie est un outil, éventuellement accessible par Telnet, qui permet de retrouver des informations parmi l'ensemble des nombreux fichiers FTP d'archives. Archie indexe périodiquement les fichiers de tous les sites concernés. L'utilisateur doit définir l'objet de sa requête par des mots en anglais, qu'il est possible de tronquer. Les fichiers sélectionnés par Archie peuvent, le cas échéant, être téléchargés sur l'ordinateur du demandeur. Archie est un service très consulté car il permet de trouver rapidement l'information utile mais son inconvénient majeur est son indexation des noms de fichiers souvent insuffisante.

    Veronica

    Veronica (Very easy rodent oriented network information for computer access) a été créé en 1993. C'est un outil de recherche très utile sur Gopher : Veronica aide à la localisation de serveurs contenant une information précise, grâce à un index obtenu à partir des menus Gopher. L'utilisateur doit définir en anglais l'objet de sa requête. Veronica propose alors un menu Gopher qui rassemble tous les menus Gopher qui répondent à la recherche. La consultation se poursuit alors comme à partir de n'importe quelle application Gopher. L'utilisateur doit veiller à fournir à Veronica une recherche aussi précise que possible car la puissance de cet outil, qui parcourt tous les serveurs Gopher de la planète, peut générer beaucoup de bruit ». L'inconvénient majeur de Veronica est de n'indexer que les titres, ce qui donne des possibilités de recherche assez réduites.

    World Wide Web

    Le World Wide Web est l'un des plus puissants modes de navigation sur l'Internet. À la différence de Gopher qui permet une navigation par menus hiérarchiques et arborescents, le Web est construit sur la notion d'hypertexte dans une architecture client/serveur. La navigation par liens hypertextuels permet la consultation de services toujours plus nombreux, parmi lesquels des catalogues de bibliothèques ou de centres documentaires, mais également toutes sortes d'applications multimédias : on y trouve en effet des bases textuelles, des bases graphiques d'images fixes ou animées, éventuellement accompagnées de bandes sonores. Cette navigation est rendue possible par l'utilisation d'un « navigateur» (browser ou «fureteur»), logiciel d'application qui permet de se déplacer dans l'Internet.

    Le principe de base du Web est celui du document hypertexte réparti. L'hypertexte consiste à coder de manière distinctive un mot ou un groupe de mots dans un texte. Ce codage, totalement transparent pour l'utilisateur, lie ce mot ou ce groupe de mots à un autre texte ou à un autre fichier, voire à une autre base de données sur un autre site. Le codage utilisé est un mot souligné. Au passage sur un lien hypertexte, la flèche, qui matérialise habituellement le curseur, se transforme en une main ; il suffit alors de cliquer sur la souris pour établir le lien hypertexte.

    Vignette de l'image.Illustration
    Annuaires électroniques

    Les applications disponibles sur le Web sont généralement d'une présentation beaucoup plus conviviale et agréable que les applications Gopher ou Telnet : elles présentent une image graphique, grâce à l'utilisation de couleurs, de polices de caractères différentes et d'une mise en page, parfois animée par des objets Java ». Cet aspect graphique est obtenu par une structuration des fichiers électroniques en format HTML (hypertext markup language), sous-partie de la norme SGML. Les communications sur le World Wide Web sont assurées par le protocole HTTP (hypertext transfer protocol). HTTP offre en outre l'accès à d'autres applications, parmi lesquelles Gopher, Telnet, WAIS et des serveurs FTP. Cette intégration des autres serveurs d'information est l'un des grands avantages du Web, puis-qu'elle lui permet de masquer les particularités des différents protocoles d'accès.

    Recherche d'information

    Les serveurs d'information décrits ci-dessus constituent un ensemble de ressources gigantesque qu'il est souvent malaisé d'utiliser pleinement par manque d'outils adéquats de recherche et de découverte d'information : c'est une vérité de La Palice mais, quand on sait où chercher, on peut consulter un serveur et on trouve l'information. L'inconvénient de cette approche est évidemment que la consultation ne peut être effectuée que si l'on sait à quel serveur s'adresser. Les systèmes d'information tels que Gopher ou Web permettent d'organiser les serveurs d'information pour faciliter la navigation et la recherche de l'information, mais il est en fait assez difficile de trouver rapidement ou de localiser à coup sûr l'information : leur taille gigantesque est en effet un obstacle non négligeable.

    C'est pourquoi on assiste au développement rapide de services qui permettent de trouver les serveurs répondant à la recherche effectuée. Ces services permettent de trouver plus facilement de l'information sur Internet en guidant l'utilisateur, en effectuant la recherche sur plusieurs serveurs, voire en proposant des choix.

    Il existe deux grandes catégories d'outils de recherche sur l'Internet : les répertoires et les moteurs de recherche.

    Les répertoires sont généralement réalisés par des équipes de chercheurs qui passent leurs journées à explorer le Web à la recherche de nouveaux sites.

    Chaque nouveau site rencontré est analysé succinctement et, après examen, indexé selon une classification malheureusement trop souvent non normalisée. Il est possible de signaler l'existence d'un nouveau site à l'équipe chargée du répertoire. Yahoo est un exemple très connu de répertoire indexé.

    Les moteurs de recherche, souvent baptisés crawlers ou spiders, sont généralement des ordinateurs qui explorent systématiquement le Web et qui créent aussi systématiquement des catalogues de pages Web. Les nouveaux sites rencontrés sont indexés sans contrôle du contenu. Alta Vista est un exemple très connu de moteur de recherche.