Associer image et texte dans un PDF (hocr2pdf)

Up: Previous:

Si on dispose d’une image de texte (de qualité suffisante), on peut en faire la reconnaissance de caractère en retenant le positionnement du texte dans l’image, en format hOCR. On peut alors transformer l’image en PDF en y incluant une couche texte, où le texte devrait être positionné comme dans l’image, avec la fonction hocr2pdf de la suite Exactimage, en faisant :

hocr2pdf -i image.tiff -o image-et-texte.pdf < texte.hocr⚓

Si on a plusieurs pages, on fait l’opération ci-dessus pour chacune et on rassemble les PDF obtenus avec gs ou pdftk.

Les dimensions d’un PDF sont quelque chose de très complexe (résolution, taille de papier à l’impression et tutti quanti). Il m’est arrivé d’obtenir de hocr2pdf un PDF où dans la couche texte, le texte était mal positionné, beaucoup plus grand que son image : en sélectionnant toute la page dans un lecteur de PDF, la commande Édition, Copier ne récupérait qu’un quart du texte. (Je ne sais pas si le reste du texte était perdu ou bien « positionné » dans le vide en dehors de la page. Peut-être que pdfgrep pourrait en décider.) Sur les mêmes images, j’ai obtenu un meilleur résultat (positionné correctement) en en faisant d’abord un PDF sans texte d’une ou plusieurs pages et en demandant à PDFsandwich de faire tout à la fois : procéder à l’OCR (en une fois sur l’ensemble des pages) et créer la couche texte.

Up: Previous: