Bonjour, qu'est-ce que l'océrisation ? Merci beaucoup pour votre réponse.

Attention, cette réponse est ancienne. Son contenu peut être en tout ou partie obsolète.

Question

Bonjour,
qu'est-ce que l'océrisation ?
Merci beaucoup pour votre réponse.

Réponse

Date de la réponse :  23/02/2010

Le terme océrisation dérive de l'abréviation OCR : Optical Character Recognition, c'est-à-dire en français : Reconnaissance optique des caractères (ROC, peu utilisé).

Techniquement, il s'agit du traitement d'une image (le texte est scanné, comme par une photocopieuse) sur laquelle on fait intervenir un logiciel de reconnaissance de caractères : le logiciel déchiffre les formes et les traduit en lettres.

Une étape d'apprentissage est parfois nécessaire, c'est-à-dire qu'à chaque caractère non reconnu, il faut lui indiquer quelle est la lettre en question.

Le logiciel "traduit" ainsi l'ensemble de l'image en texte, ce qui permet d'obtenir ainsi un fichier texte.

Ce procédé permet de convertir des grands ensembles de données en textes, permettant ainsi la recherche plein-texte. Elle s'applique de préférence aux textes imprimés mécaniquement.

Il existe toujours un taux d'erreur dans la reconnaissance de caractère, lié à la qualité du document initial, aux polices employées, aux notes et à la forme du texte...

L'océrisation est une des étapes du processus de numérisation, qui inclut parfois aussi une structuration des documents (par exemple en xml).

Pour plus d'informations :

BNF. Techniques et formats de conversion en mode texte : http://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.html

Cordialement,

Le Service questions? réponses! de l'enssib

 

MOTS CLES : Traitement de l'information : Numérisation