Service en ligne de reconnaissance optique de caractères

Free OCR est un service en ligne de reconnaissance optique de caractère (OCR)

En principe, il peut traiter des images contenant du texte en anglais, français, allemand, italien ou espagnol.

En pratique, vous n’avez qu’à télécharger une image avec du texte, et le service extraira les mots des images en quelques secondes.

Dépendant de la fonte utilisée dans les images originales, le service aura plus ou moins de succès : si la fonte possède une chasse fixe ou que les lettres demeurent toutes relativement écartées les unes des autres, le résultat sera meilleur. Plus les lettres sont rapprochées (chasse étroite ou «narrow»), plus on obtiendra de charabia. Les accents étant une cause fréquente de confusion pour peu qu'ils soient rapprochés de la lettre à interpréter.

Un exemple :

; r,`Éi° AA; QiCertùîmüa * —==· *"%·—*| È ,«r..
giù ren rentes-marketing 1, ea, —»¤ (,;.·*•r_ · sa u r - I
Pourcadres et gestionnairesJ'! I l` I I H`¤·}·y'- . i`;'?".«': ..·:_-— gl} .I _ _
Basses-Lauréntidés—Lavalr rr a r Q)

Dans des images textes claires, on obtient un succès de l'ordre de 95 %, ce qui est remarquable. Dans le meileur des cas, il reste toujours quelques caractères, accents, paragraphes et signes étranges à corriger.

En somme, l'outil sera utile pour extraire le texte de longs documents .pdf non-éditables ou d'images de pages de livres; autrement, il sera plus rapide de retranscrire directement le texte.

L'initiative mérite pourtant d'être approfondie, et montre que la reconnaissance de caractères (qui est une des modalités de la production de sens à partir de signes) constitue toujours un défi important pour les applications ne nécessitant pas l'intervention humaine.

Free OCR