Transcription de textes manuscrits en format texte

Attention, cette réponse est ancienne. Son contenu peut être en tout ou partie obsolète.

Question

Bonjour,
Un enseignant-chercheur devant travailler sur un important corpus de lettres manuscrites nous interroge sur l'existence de logiciels d'océrisation de textes manuscrits. Les produits gratuits en ligne et ceux proposés couramment par les sociétés spécialisées ne semblent pas fonctionner du tout avec l'écriture cursive et ne sont même pas performants avec une écriture scripte. Des solutions comme le reCAPTCHA ne sont même pas envisageables ( à moins que Google propose un service - payant ou non - que nous ignorons). La consultation des pages du site de la BNF consacrées à la numérisation des manuscrits et imprimés n'offre pas de solution pour l'écriture manuscrite.
Avez-vous connaissance de solutions déjà opérationnelles permettant de transcrire (par exemple à partir d'un scan en jpeg ou d'un PDF) la numérisation d'un corpus manuscrit vers un format txt pouvant être traité par divers outils de recherche ?
Merci.

Réponse

Date de la réponse : 29/03/2017

Un enseignant-chercheur de votre université est à la recherche de logiciels capables de faire de la reconnaissance optique de caractères (ou OCR) de manuscrits. Vous avez déjà consulté les sites de la BnF, Google Scholar, Wikipedia et diverses revues professionnelles.

La reconnaissance optique de caractères des documents anciens et manuscrits est une opération très complexe qui fait l'objet de recherches dans les humanités numériques, impliquant des équipes de chercheurs en lettres et sciences humaines et sociales et de chercheurs en informatique.

Il faut savoir que les logiciels, quelles que soient leurs performances, ne dispensent pas d'un travail d'apprentissage de reconnaissance des formes sur le corpus visé, et par la suite un inévitable travail de relecture et correction humaine.

Il y a eu des échanges très récents à ce sujet sur la liste Bibliopat (Bibliopat est une liste de discussion qui a pour objectif de créer une communauté de personnes partageant un même intérêt pour le patrimoine des bibliothèques, au sens le plus large du terme, et tous les aspects de sa gestion. Elle est un lieu de réflexions, de questions et d'entraide.")

Ainsi, ont été cités les logiciels ocropy et clstm, et leur documentation (en anglais). Cette documentation aborde en introduction des questions générales de principes et méthodes d'OCR de manuscrits et textes anciens.

Vous trouverez une explication de leur utilisation par un chercheur, Jean-Baptiste Camps, dans l'article Homemade manuscript OCR (1): OCRopy publié le 6 février 2017 sur son carnet de recherche Sacré Gr@@l, Histoire, philologie, programmation et statistiques.

Le logiciel Transkribus a été cité également dans les discussions sur Bibliopat.

Pour aller plus loin, il semble que le Centre d'Études Supérieures de la Renaissance (CESR) à Tours soit un centre d'expertise reconnu sur tous ces sujets.

Vous pouvez conseiller à votre collègue enseignant-chercheur de s'inscrire à la liste de discussion Bibliopat, ou de contacter des homologues travaillant dans les humanités numériques, par exemple à partir des références fournies dans l'article Humanités numériques de Wikipedia.