Accès direct :
Par Claire MARGARON, le 1 jui 2011
Google Books, projet lancé en 2004 par la célèbre firme californienne, totalise aujourd’hui plus de 15 millions de livres numérisés. Mais à l’interrogation de cette gigantesque banque de livres, force est de constater qu’un grand nombre d’informations fournies sur les ouvrages sont fausses, faute des métadonnées fiables sur les dates de publication ainsi que sur la nomenclature des livres. Par exemple Le Bûcher des vanités, de Tom Wolfe daterait de 1888 au lieu de 1987.Ces erreurs sembleraient provenir d’un problème technique d’extraction de la date de publication à partir du texte scanné. De même l’utilisation que fait Google de la nomenclature Bisac pour la classification des ouvrages reste très contestable en produisant aussi beaucoup d’erreurs, comme l’édition 1919 de Robinson Crusoe, classée dans « Artisanat et loisirs ».
Et la liste est longue des imperfections des algorithmes et de la numérisation de Google. Toutefois, ces faiblesses pourraient être compensées par des organismes comme l’Internet Archive ou le HathiTrust, un consortium de bibliothèques partenaires du projet qui va rendre accessible en ligne plusieurs millions de livres du domaine public numérisés par Google provenant de leurs fonds, avec toutes leurs données bibliographiques.
Ainsi Google se retrouve face à un nouveau défi pour répondre à l’exigence de qualité et de fiabilité attendue notamment par la communauté des chercheurs.
Lire la suite : Le musée des erreurs de Google Books, in Books. L’actualité pour les livres du monde, n°21, avril 2011 ; The trouble with Google Books de Nunberg, interview de Laura Miller sur le site salon.com, 9 septembre 2010
Google Books - Source osde8info pour Flickr/CC-by-NC-SA.2.0
Pour aller plus loin :
Catégorie : Le monde de l'information, Innovation et numérique, Le monde des bibliothèques, Bibliothèques numériques
Tags : bibliothèque numérique, classification, Google Books, indexation, livres numérisés, métadonnées
Ajouter un commentaire