reCaptcha ou comment aider Google à numériser des millions d'ouvrages (à votre insu)

Par Christelle DI PIETRO, le 19 Octobre 2011

En 2009, Google rachète reCaptcha, une start-up spécialisée dans les captchas, ces petites images utilisées sur de nombreux sites, qu'il faut déchiffrer et qui servent à distinguer les ordinateurs des humains. Plus de 100 000 sites ont implémenté le système, qui est utilisé quotidiennement par près de 30 millions d'utilisateurs, qui passent chacun une poignée de seconde à résoudre le captcha. Des centaines d'heures perdues ? Pas pour Google, qui a décidé d'utiliser cette technologie pour poursuivre son travail de numérisation : dans chaque captcha proposé par le service, le premier mot est un mot « test », celui qui est utilisé pour savoir si oui ou non vous êtes un humain. Le second, c'est un mot contenu dans un livre numérisé, que Google n'est pas parvenu à déchiffrer. Ce mot est soumis à de nombreux utilisateurs : au bout de plusieurs réponses identiques, le mot est « appris » par l'algorithme de Google, qui pourra mieux le reconnaître dans le futur et qui l'insère dans le texte numérisé.
En 2008, le magazine américain Science avait calculé que si on mettait à profit toutes les captchas utilisées sur Internet, on pourrait retranscrire... 160 livres par jour.

Lire la suite : Psitt, Google vous utilise à votre insu pour numériser des livres, Rue89 / Martin Untersinger, 18 octobre 2011.

reCaptcha

Pour aller plus loin :

Catégorie : Le monde de l'information, Innovation et numérique, Le monde des bibliothèques, Bibliothèques numériques

Tags : Google Books, Numérisation de masse

Liens réseaux sociaux

Ajouter un commentaire

CAPTCHA
Cette question permet de s'assurer que vous êtes un utilisateur humain et non un logiciel automatisé de pollupostage (spam).
Image CAPTCHA
Saisir les caractères affichés dans l'image.