ROC avec Tesseract

Ça y est, le vrai OCR sous Linux est arrivé ! J’ai installé tesseract.ocr avec les fichiers de données pour différentes langues à partir du dépot Universe. Si on veut la toute dernière version, voir http://doc.ubuntu-fr.org/tesseract-ocr.

En ligne de commande

On scanne une page d’un livre en français


Disons image.tiff. On commande

tesseract image.tiff textedelimage -l fra

(où bien sûr -l fra veut dire langue : français — je suppose qu’on a les fichiers de données de langue pour le français) et ça donne en trois secondes le fichier textedelimage.txt du texte d’image.tiff sans une seule faute. (Enfin, pour les textes de bonne qualité et si les lignes sont bien horizontales sur le scanner.) Qu’on se le dise, maintenant sous Linux il y a un vrai OCR gratuit mais de qualité professionnelle, à l’égal des plus chers !

À partir d’XSane

Je suis arrivé à interfacer Tesseract avec XSane grâce à des indications et à un script trouvés sur ubuntu-fr.org. Pour le script, il faut le copier de leur page xsane2tess ou bien ici sur mon site et le sauver dans /usr/bin sous le nom xsane2tess en le rendant exécutable. Le script a besoin d’un dossier ~/tmp qu’il faut créer au besoin. Il faut installer le paquet imagemagick. (Si on préfère graphicsmagick, j’ai écrit dans mon fichier xsane2tess-g.txt une variante adaptée. Mais souvent imagemagick est déjà installé.) Dans XSane, Préférences, Configuration, OCR, indiquer comme Commande, xsane2tess -l fra (pour le français, adapter pour d’autres langues), -i comme option d’entrée et -o comme option de sortie. Dans la fenêtre principale de XSane, demander Enregistrer, proposer un nom de fichier, choisir le type TEXT et Trait au lieu de Couleur. Et voilà, on peut passer du scanner au texte en une seule opération les doigts dans le nez. (Si on avait demandé Visionneuse, il est toujours possible de sauver l’image visionnée à travers l’OCR. C’est une des commandes du menu Fichier de la visonneuse.)