"Crawl" et gestion de document : recherche d'outils

Question

Bonjour,
je suis à la recherche d'un outil pour lancer des crawls sur quelques 300 adresses internet, qui offre la possibilité d'importer un document de ces différentes pages dans une banque de données, également un filtre à doublon, et ensuite si possible une indexation automatique.
Connaissez-vous un outil qui offre ces fonctions ?
En vous remerciant par avance, recevez, Madame, Monsieur, mes cordiales salutations.

 

Réponse

Date de la réponse :  26/04/2018

Vous cherchez un outil capable de lancer des crawls sur 300 adresses internet et de verser certaines pages dans une banque de données (en filtrant les doublons) et en les indexant automatiquement.

Nous ne sommes pas en mesure de répondre à une question aussi précise.

De plus, nos compétences en matière de Web crawler sont limitées.

Voilà toutefois quelques pistes documentaires générales, qui pourront vous aider à mener vos recherches.

L'article Web crawler de Wikipedia signale une trentaine d'outils - dont 20 outils open source.
Vous pouvez également consulter l'article français correspondant, intitulé Robot d'indexation.

Le portail de l'Intelligence économique propose un Comparatif de logiciels de veille qui référence 7 crawlers : Content Grabber, Cybeangel, Findout, Mixdata, Mytwip, Visual Web Ripper.

Archimag a publié en 2015 un dossier sur les logiciels de veille, au sein duquel figure un tableau comparatif des logiciels de veille.

Enfin, une étude Serda de 2013 décrit les solutions de veille suivantes : Ami Software (racheté entretemps par BertinIT), Argus de la presse, Data Observer, Digimind, Eptica, iScope, Ixxo, Kantar, KBCrawl, Qwam, Sindup, Spotter, Synthesio, Trendy Buzz Institut.
Source : Projet de veille méthodologie, solutions logicielles et bonnes pratiques. Jérôme Bondu,Thibaut Stephan, Louise Guerre. SerdaLab ; Inter-Ligere, 2013

Pour aller plus loin, vous pouvez consulter la rubrique veille - intelligence économique de l'annuaire Archimag, ou ces livres blancs :

Pour de plus amples conseils, vous pouvez contacter l'ADBS, qui propose par exemple une formation Fonctions avancées des outils de veille.
Vous pouvez également demander conseil aux membres des secteurs veille ou audiovisuel.

Vous pouvez éventuellement demander conseil au service en charge de l'archivage du web à la BnF (qui utilise apparemment l'outil NetarchiveSuite) ou au consortium IIPC pour la préservation de l’Internet.