Dominique Meeùs
Dernière modification le
retour au dossier Femmes
Le magazine Voyelles, magazine féminin, féministe, initiative de Suzanne Van Rokeghem, Jeanne Vercheval, Marie Denis et autres est annoncé pour début 1978 à la p. 137 du numéro 23-24 (1978) des Cahiers du Grif1. (On voit que ç’a été un an et demi plus tard en réalité. Le magazine a vécu trois ans, de l’automne 1979 à l’automne 1982.) Le féminisme est dans la rue : Belgique 1970-75 ne mentionne Voyelles que comme projet, qui est en dehors de la période couverte. (Voir Voyelles dans l’index du livre mentionné.)
La meilleure relation de cette aventure, c’est le livre de Claudine Marissal et Eliane Gubin, Jeanne Vercheval : Un engagement social et féministe, au chapitre 6, En route vers un nouveau magazine d’information féminin, p. 174 et suivantes. Claudine Marissal et Eliane Gubin ont eu les souvenirs de Jeanne Vercheval, mais elles ont consulté aussi ce qu’en dit Suzanne Van Rokeghem dans Luc Courtois, Jean Pirotte et Françoise Rosart (dir.), Femmes des années 80 : Un siècle de condition féminine en Belgique 1889-1989, Academia, Louvain-la-Neuve, 1989, ISBN : 2-87209-089-4, et bien d’autres sources. Ce n’est pas que documenté de manière très professionnelle ; les autrices ont réussi à faire revivre l’aventure vécue.
… complète, mais de qualité inégale. J’en parle dans mes considérations techniques et je pense devoir en refaire, mieux et en plus haute définition, la plus grande partie.
J’édite à part le texte des contributions de Marie Denis à ces numéros de Voyelles.
Un PDF de 72 pages ou plus avec quelques pages en couleur, avec images et texte, n’est sans doute jamais petit. Je fais mon possible pour scanner et ajouter dans un PDF le plus léger possible le texte obtenu par reconnaissance de caractères. Ma technique s’est améliorée au fil des ans pour la qualité, mais pas toujours pour la légèreté. J’ai maintenant (été 2025) une technique d’un niveau acceptable (toujours améliorable). Je devrais donc refaire la plupart des numéros faits avant.
Se pose aussi la question de la définition. Le programme ScanTailor Advanced (voir ci-dessous) propose par défaut de sortir à 600 dpi. Comme on recommande au moins 300 dpi pour la reconnaissance de caractères, j’ai pensé me contenter de 300 dpi pour ne pas alourdir. Je viens de tenter (été 2025) le numéro 28 avec des images à 600 dpi en sortie de ScanTailor, pensant que peut-être les photos seraient meilleures. On voit dans la liste ci-dessus qu’il est nettement plus lourd. Puis, à partir du même travail préparatoire en ScanTailor Advanced de ce numéro 28, j’ai demandé des sorties en 300 dpi et relancé sur celle-ci l’étape OCRmyPDF. À ma grande surprise, par rapport à ce numéro 28 plus léger, la version lourde, qui n’est que légèrement meilleure pour les photos, est nettement meilleure pour la beauté, la précision des caractères. Je pense devoir tout refaire de ce niveau, même si c’est plus lourd.
Une première méthode a consisté (avec le scanner à plat lié à mon ordinateur) à demander au pilote de scanner, xSane (c’est sous Linux) de sortir des PDF passés directement par Tesseract pour la reconnaissance de caractères4. Tesseract produit des PDF, mais pas optimisés pour les images et la réunion des pages me donnait un PDF de 150 Mo.
J’ai alors eu recours à OCRmyPDF.
Uu lieu de demander à xSane des PDF passés directement par Tesseract,
je scanne avec xSane toutes les pages comme images TIFF à 300 dpi6.
Je les réunis en un PDF par img2pdf.
Au PDF résultant, j’applique OCRmyPDF qui utilise également Tesseract, en huit processus parallèles.
(Seize sur un ordinateur plus récent, à partir du printemps 2021.)
J’ai en outre compilé à partir de la source le programme jbig2enc qui fournit la commande jbig2.
Cela me permet de demander à OCRmyPDF du même coup, en plus de l’OCR, d’optimiser la compression des images.
Ma commande, à ce stade, était finalement :
ocrmypdf -l fra --deskew --clean --jbig2-lossy --optimize 3 out.pdf Voyelles02.pdf.
Les numéros 1, 3 et 4 avaient été faits sans jbig2.
J’ai essayé ça pour le numéro 2 et continué ainsi.
J’ai essayé aussi au bureau une machine qui fait tout toute seule, d’un coup : un PDF avec le texte dedans. (Un copieur-scanner-imprimante avec logiciel de reconnaissance de caractères.) Le numéro 7 est, en gros, huit fois plus léger que les précédents ! Le texte ne semble pas mauvais, par contre, la définition n’est pas suffisante. Les caractères sont plus complets en gris qu’en noir et blanc, mais je n’arrive pas à avoir un gris plus contrasté, plus noir. Les numéros 8, 9 et 10 sortent de la même machine, avec une meilleure définition. J’aurais pu revoir certaines options, mais il n’y a sans doute pas d’options idéales en un passage pour un magazine avec du texte en noir et blanc, des photos dans le texte et des pages couleur.
Retour à OCRmyPDF, mais, cette fois, avec ScanTailor Advanced !
Un chose très importante pour la qualité de la reconnaissance de caractères
(et pour la beauté du PDF de sortie), c’est la qualité des images et j’ai trouvé un programme pour cela.
Je scanne en une demi-heure les 100 pages du no 11 de Voyelles
en TIFF sur mon scanner à plat, couleur pour les pages couleur, gris pour le reste.
Je procède au traitement des images scannées avec ScanTailor Advanced,
dans lequel je sélectionne le contenu, redressé s’il est un peu de travers.
J’ajoute des marges.
(Les marges du scan, avec des bords noirs, d’éventuelles annotations au crayon, sont ignorées
et remplacées par de nouvelles marges dans la couleur du fond, blanc pour le texte.)
Je considère tout à priori comme noir sur blanc, puis je reviens à Color/Grayscale pour les pages couleur
et à Mixed pour celles qui contiennent des photos ou des textes dans un encadré de fond gris.
(Les différentes opérations successives en ScanTailor Advanced sur toutes les pages,
ça prend ce certain temps qu’on appelle « un temps certain ».
Pour un numéro d’un magazine comme Voyelles, avec des photos, une à deux heures.)
Enfin je réunis les images du dossier out de sortie du traitement en ScanTailor Advanced
en les envoyant à OCRmyPDF par la commande :
img2pdf out/*.tif | ocrmypdf -l fra --jbig2-lossy --optimize 3 - Voyelles11.pdf7.
Là, ça va vraiment vite.
Il faut à ocrmypdf un peu moins de 30 secondes pour lire tout ce qu’img2pdf lui envoie.
Il faut environ 45 secondes pour reconnaître les caractères de ces 100 pages avec l’aide de Tesseract.
(J’ai maintenant une machine plus puissante, où, sur 16 corps, Tesseract traite 16 pages à la fois.)
Il faut encore environ 15 secondes pour les optimisations finales et la conversion du PDF en PDF/A.
La même commande sans jbig2 et sans optimize donne un fichier de 60 Mo.
Avec ces options, cela devient 43 Mo sans perte visible de qualité.
[1] Voyelles (en préparation)
[Cahiers du Grif, numéro 23-24 (1978), p. 137.]
Au début de 1978 paraîtra un nouveau magazine, belge celui-ci, dont un « modèle réduit » est sorti récemment sous forme de numéro zéro.
Voyelles, un nouveau magazine féminin, belge. Conçu, écrit, géré, réalisé par une équipe de femmes. Paraîtra une fois par mois et coûtera 60 francs. Sera à l’image des femmes de notre temps, curieuses, intelligentes, dynamiques.
Voyelles donnera la parole aux femmes d’une ville, d’une région, pour mieux faire connaître ses écoles, ses emplois, ses crèches, ses loisirs, ses problèmes économiques et sociaux, pour aider à mieux s’insérer dans la vie communautaire.
En 1979, Voyelles suivra et rendra compte, à partir du vécu des femmes engagées, de l’année internationale de l’enfance, des élections sociales en Belgique, des élections européennes.
Voyelles donnera des informations pratiques sur le droit à l’emploi, la consommation, l’éducation permanente, le planning familial.
Voyelles parlera du bonheur… Dira les relations des femmes entre elles, des femmes avec les hommes (nos compagnons de vie ou de travail, nos frères, pères, nos patrons). Elle dira aussi nos relations avec nos parents, nos enfants, nos amis…
Voyelles sera un lieu de création. Elle publiera des photographies, des dessinatrices. La nouvelle et la Bande dessinée y auront leur place.
Voyelles bricolera, coudra, cuisinera, tricotera, fouinera, et la mode contournera.
Voyelles publiera chaque mois l’agenda des spectacles, films, concerts, l’agenda des expositions, annoncera les fêtes folkloriques et autres. Vous y trouverez une sélection des programmes de radio et de télévision.
Voyelles sera aussi la boîte aux lettres de l’une et de l’autre… pour créer ensemble une chaîne de solidarité.
Adresse : Avenue Messidor 24 (Suzanne van Rokeghem), 1180 Bruxelles, tél. 347 22 78.
[2] Dans la numérotation, il y a des sauts, l’encart couleur ayant changé de place.
[3] Marqué par erreur 19 en couverture, mais bien juin — et bien 20 en page 3.
[4] J’ai dit au programme qui pilote le scanner de ne pas me renvoyer l’image de la page, mais de la passer à la moulinette du script ci-dessous et de me renvoyer le résultat.
#! /usr/bin/perl -w
# Xsane to Tesseract by EquinoxeFR (http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl)
# Using Tesseract 3.04, I tested that Tesseract accepts raw input. I drop the conversion to TIFF.
# Dominique Meeùs , https://d-meeus.be, 23-4-2017.
# Slow Tesseract 4, workaround about thread limit, rev. 1-6-2018.
use strict;
use Getopt::Long;
my $logfile = "/tmp/tesseract.log";
my $lang;
my $inputfile;
my $outputfile;
GetOptions ('log=s' => \$logfile,
'l=s' => \$lang,
'i=s' => \$inputfile,
'o=s' => \$outputfile
);
open (LOG,"> $logfile") or die "Error Opening log file $logfile\n";
print LOG "Xsane to Tesseract by EquinoxeFR\n";
print LOG "-i $inputfile\n";
print LOG "-o $outputfile\n";
print LOG "-l $lang\n";
print LOG `OMP_THREAD_LIMIT=1 tesseract -l $lang "${inputfile}" "${outputfile}" pdf 2>&1`;
unlink( "${outputfile}");
close(LOG);
Ah ! ce script, je trouve ça beau comme un poème5.
Je scanne ainsi une page après l’autre et j’obtiens de chacune un PDF, avec texte dedans,
que ne j’ai plus qu’à rassembler par :
pdftk out0*.pdf cat output Voyelles01.pdf.
Élémentaire, mon cher Watson. Mais le PDF est trop gros.
J’ai donc immédiatement abandonné cette méthode pour celles que je décris ensuite.
(Par ailleurs, je ne suis pas sûr que la précaution OMP_THREAD_LIMIT=1
soit encore utile aujourd’hui.)
[5] J’admets que ça nous confronte à la question difficile de savoir ce qui est de l’art — ou non. De fait, j’adore les tableaux des primitifs flamands et il ne viendrait à l’esprit de personne de contester que c’est de l’art. Mais j’aime aussi les moules de Broodthaers et même un petit Ben, ou ce genre de choses, de temps à autre. On pourrait dire que l’art, c’est ce qui donne un peu le vertige et le script de la note précédente, il me donne un peu le vertige.
[6] On
recommande le TIFF comme format supérieur au JPEG (comprimé avec pertes).
J’ai essayé le JPEG pour le no 32.
Ce n’est pas moins bon, mais ce n’est pas plus léger comme fichier final
et ces TIFF de sortie de pdftoppm ne sont que des fichiers temporaires.
(Sans doute que le passage par OCRmyPDF gomme la différence.)
J’ai donc repris le TIFF pour les images de départ.
[7] Dans
la syntaxe de cette commande, attention au dernier trait d’union,
après tous les paramètres, mais devant le nom du fichier de sortie Voyelles11.pdf.
C’est cet obscur petit signe qui représente le fichier PDF de sortie
de la commmande img2pdf au début de la ligne,
fichier fourni en entrée à ocrmypdf.