Index des revues

  • Index des revues

Méthodes et outils de recherche sur l'Internet

1997
    ⇓  Autres articles dans la même rubrique  ⇓
    Par Marc Chauveinc
    Olivier ANDRIEU

    Méthodes et outils de recherche sur l'Internet

    Paris, Eyrolles, 1997. - ISBN: 2-212-08939-2. -prix: 138 Frs.

    Les ouvrages sur Internet se multiplient en France car notre pays, lentement et avec difficulté, commence à prendre conscience de la «révolution industrielle» en train de s'accomplir sous nos yeux. On le dit souvent, mais il faut le répéter, la richesse du XXIe siècle sera l'information et la structure de cette information sera décentralisée par un réseau du type Internet. Déjà, aux États-Unis, très en avance sur l'Europe en ce domaine, l'industrie de l'information représente un budget considérable. Déjà, les entreprises qui utilisent des réseaux internes ou externes bénéficient d'un temps de réaction beaucoup plus court aux évolutions en cours.

    Ce livre est donc le bienvenu pour clarifier les idées et faciliter l'approche d'Internet aux apprentis internautes. Un point doit auparavant être clarifié : de quelle information parle-t-on? De toute l'information, même si cela dérange un bibliothécaire, habitué à la seule information documentaire (références d'articles de revues ou de livres). Il s'agit, avec Internet, d'un élargissement de l'information à tous les domaines : géographiques, industriels, financiers, économiques, politiques, culturels, ludiques, touristiques, etc. La liste ne peut être exhaustive. Et notre documentation ne représente qu'une petite partie de l'information qui circule sur Internet. On trouve sur Internet des informations sur les Parcs nationaux américains, sur les horaires d'avions, sur le climat de telle région, les voitures, les entreprises, mais aussi les tableaux de différents musées. On peut réserver un hôtel à San Francisco, commander un CD-ROM, un livre, voir les tableaux volés aux juifs pendant la guerre, etc..

    Dans son introduction, l'auteur écrit : «Z 'Internet peut être comparé à une bibliothèque. Voilà qui nous rassure et nous met en confiance. On va donc retrouver notre démarche habituelle de recherche de l'information. Mais Internet est aussi beaucoup plus que ça puisque, à travers le réseau, on peut correspondre par la messagerie électronique, on peut discuter dans les forums, on peut échanger des fichiers avec le FTP. De plus, la recherche dont on parle ici ne porte pas sur des bases de données documentaires (catalogues ou bibliographies) mais sur des pages WEB, c'est-à-dire des informations rédigées par les auteurs dans un but informatif, promotionnel ou publicitaire. Tout un chacun peut s'offrir une (ou plusieurs) page WEB pour présenter son organisme et donner des informations (horaires, conditions d'accès, spécificités, etc.). C'est l'ensemble de toutes ces pages WEB qui constitue le réseau. Mais il ne se confond pas avec les serveurs documentaires comme Questel, Datastar, Orbit, Dialog, même s'il y donne accès.

    L'auteur se concentre surtout sur la recherche et sur son instrument privilégié le World Wide WEB. La toile d'araignée mondiale. Le WEB est une structure qui organise les données en utilisant le format HTML. La recherche s'effectue avec des outils créés après-coup pour indexer l'énorme matériel documentaire disponible sur le WEB et y accéder par mots-clés. Il faut savoir, cependant, que toute l'information n'est pas sur le WEB, que celle-ci n'est pas toujours fiable et qu'elle est majoritairement gratuite.

    Ces outils, appelés aussi moteurs de recherche, se répartissent en trois catégories : géographiques (Virtual tourist, W3 servers), thématiques (Yahoo, Infoseek, A2Z, Argus Clearinghouse), par mots-clés (Yahoo de nouveau, Galaxy, Magellan) et beaucoup d'autres.

    La recherche par mots-clés est la plus utilisée. Elle s'effectue sur des index extraits du texte intégral des pages WEB par des robots qui mettent douze jours pour parcourir tous les serveurs WEB du monde entier. Mais ces robots n'indexent que des pages HTML, ce qui veut dire que les bases de données propres ne sont pas indexées. Il faut pénétrer dans cette base pour utiliser alors son propre système d'indexation (par exemple Le Monde ou la Bibliothèque nationale de France). Les grands moteurs décrits sont Yahoo, Altavista (un des meilleurs), Infoseek, Lycos, Webcrawler. Certains sont spécialisés, comme Lokace, Nomade ou Ecila qui "parlent" français.

    Le chapitre 2 concerne les agents intelligents qui vont comparer les réponses et choisir en fonction de critères demandés (l'avion le moins cher pour aller de Paris à Montréal le 28 août, le CD au meilleur prix). Ils s'appellent Bargain Finder, Firefly, Letizia dont les adresses WEB sont données : http://www.agentsinc.com/. Certains agents sont spécialisés dans les adresses e-mail, comme Whowhere ? (http://www.french.whowhere.com), Fourll ou Internet address finder.

    Les autres services font l'objet du chapitre 4, comme les listes de diffusion, les forums de discussion dont la liste se trouve sous : http://tile.net/news/ou, pour la France : http://www.fr.net/news-fr, les serveurs FTP qui permettent de récupérer gratuitement des fichiers. La presse n'est pas oubliée puisque certains journaux sont disponibles sur le «Net», gratuits comme les Dernières nouvelles d'Alsace, payants comme Le Monde. La liste des serveurs disponibles est évidemment donnée.

    Un petit paragraphe concerne les bibliothèques accessibles sur le WEB. La liste se trouve à . http ://sunsite.berkeley.edu/Libweb/ou http ://portico.bl.uk/gabriel.fr/welcome.html pour les bibliothèques nationales européennes.

    Plusieurs autres outils sont décrits mais nécessitent la présence de son ordinateur à coté du livre pour être réellement compréhensibles. Le chapitre 7 donne une méthodologie claire et précise avec les services à utiliser selon le type de recherche.

    L'ouvrage se termine par des annexes sur les opérateurs booléens et les moteurs de recherche.

    Il s'agit donc d'un ouvrage précis, clair qui ne s'encombre pas d'une littérature excessive mais donne une information pratique et utile pour qui veut aborder Internet sans trop savoir ce qu'il peut y trouver. À conseiller vivement aux débutants et aux autres.