Correction de l'OCR d'un PDF

Question

Bonjour,
dans le cadre de l'étude d'ouvrages anciens, j'ai récupéré un certain nombre de fichiers, numérisés et océrisés, sur Internet et libres de droit au format PDF. Dans certains cas, je ne suis pas totalement satisfaite de la qualité de l'OCR. Est-il possible de corriger l'OCR à partir d'un fichier PDF (via un logiciel par exemple) ? Ou suis-je obligée de le ré-océriser complètement ? Je ne dispose d'aucun autre format d'enregistrement de ces documents (XML, ALTO...).
Merci d'avance pour votre aide

Réponse

Date de la réponse :  06/01/2016

Vous voulez savoir comment corriger des PDF obtenus à partir de documents numérisés et OCRisés.

Votre question est pointue et excède en partie nos compétences.

Nous avons toutefois demandé conseil à nos collègues du service des Presses de l'Enssib, qui nous indiquent qu'il est possible de retoucher le texte de fichiers PDF à partir du logiciel Adobe Acrobat pro. Ce logiciel permet également de convertir un document PDF au format Word. Pour en savoir plus : Modification de documents PDF. Adobe Acrobat

Cette solution n'est cependant pas idéale si vous avez de nombreuses modifications à faire ; idéalement, les fichiers OCRisés auraient du être corrigés en amont, à l'aide d'outils dédiés.

Pour de plus amples conseils, vous pouvez contacter Dominique Maillet, expert en techniques de numérisation à la BnF : Tél. 01 53 79 45 92 (Source : Expertise en conservation. BnF)

Vous pouvez également soumettre votre question à la communauté des professionnels partageant un intérêt pour le patrimoine des bibliothèques, via la liste de discussion Bibliopat.

Pour information, nous vous signalons deux manuels de référence sur la numérisation, bien que nous n'y ayons pas trouvé d'éléments de réponse à votre question :

  • Manuel de constitution de bibliothèques numériques, sous la direction de Thierry Claerr et Isabelle Westeel. Cercle de la Librairie, 2013
  • Numériser et mettre en ligne, sous la direction de Thierry Claerr et Isabelle Westeel. Villeurbanne : Presses de l'enssib, 2010. L'OCRisation est abordée pages 31 à 35.