Bonjour, qu'est-ce que l'océrisation ? Merci beaucoup pour votre réponse.
Question
Bonjour,
qu'est-ce que l'océrisation ?
Merci beaucoup pour votre réponse.
Réponse
Date de la réponse : 23/02/2010
Le terme océrisation dérive de l'abréviation OCR : Optical Character Recognition, c'est-à-dire en français : Reconnaissance optique des caractères (ROC, peu utilisé).
Techniquement, il s'agit du traitement d'une image (le texte est scanné, comme par une photocopieuse) sur laquelle on fait intervenir un logiciel de reconnaissance de caractères : le logiciel déchiffre les formes et les traduit en lettres.
Une étape d'apprentissage est parfois nécessaire, c'est-à-dire qu'à chaque caractère non reconnu, il faut lui indiquer quelle est la lettre en question.
Le logiciel "traduit" ainsi l'ensemble de l'image en texte, ce qui permet d'obtenir ainsi un fichier texte.
Ce procédé permet de convertir des grands ensembles de données en textes, permettant ainsi la recherche plein-texte. Elle s'applique de préférence aux textes imprimés mécaniquement.
Il existe toujours un taux d'erreur dans la reconnaissance de caractère, lié à la qualité du document initial, aux polices employées, aux notes et à la forme du texte...
L'océrisation est une des étapes du processus de numérisation, qui inclut parfois aussi une structuration des documents (par exemple en xml).
Pour plus d'informations :
BNF. Techniques et formats de conversion en mode texte : http://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.html
Cordialement,
Le Service questions? réponses! de l'enssib
MOTS CLES : Traitement de l'information : Numérisation