Dominique Meeùs
Dernière modification le
retour au dossier Femmes
Le magazine Voyelles, magazine féminin, féministe, initiative de Suzanne Van Rokeghem, Jeanne Vercheval, Marie Denis et autres est annoncé pour début 1978 à la p. 137 du numéro 23-24 (1978) des Cahiers du Grif1. (On voit que ç’a été un an et demi plus tard en réalité. Le magazine a vécu trois ans, de l’automne 1979 à l’automne 1982.) Le féminisme est dans la rue : Belgique 1970-75 ne mentionne Voyelles que comme projet, qui est en dehors de la période couverte. (Voir Voyelles dans l’index du livre mentionné.)
La meilleure relation de cette aventure, c’est le livre de Claudine Marissal et Eliane Gubin, Jeanne Vercheval : Un engagement social et féministe, au chapitre 6, En route vers un nouveau magazine d’information féminin, p. 174 et suivantes. Claudine Marissal et Eliane Gubin ont eu les souvenirs de Jeanne Vercheval, mais elles ont consulté aussi ce qu’en dit Suzanne Van Rokeghem dans Luc Courtois, Jean Pirotte et Françoise Rosart (dir.), Femmes des années 80 : Un siècle de condition féminine en Belgique 1889-1989, Academia, Louvain-la-Neuve, 1989, ISBN : 2-87209-089-4, et bien d’autres sources. Ce n’est pas que documenté de manière très professionnelle ; les autrices ont réussi à faire revivre l’aventure vécue.
… complète, quand j’aurai fini. Les liens actifs correspondent aux numéros déjà digitalisés.
J’ai édité à part le texte des contributions de Marie Denis à ces numéros de Voyelles.
Un PDF de 72 pages ou plus avec quelques pages en couleur, avec images et texte, n’est sans doute jamais petit.
Je fais mon possible pour scanner et ajouter le texte obtenu par reconnaissance de caractères
dans un PDF le plus léger possible. Tesseract produit des PDF mais pas optimisés pour les images.
Une première méthode4 me donnait un PDF de 150 Mo.
Maintenant, au lieu de demander à xSane des PDF passés directement par Tesseract,
je scanne avec xSane toutes les pages comme images TIFF à 300 dpi. Je les réunis en un PDF par img2pdf
.
Au PDF résultant, j’applique OCRmyPDF qui utilise également Tesseract, en huit processus parallèles.
J’ai en outre compilé à partir de la source le programme jbig2enc
qui fournit la commande jbig2
.
Cela me permet de demander à OCRmyPDF du même coup, en plus de l’OCR, d’optimiser la compression des images.
Ma commande est finalement :
ocrmypdf -l fra --deskew --clean --jbig2-lossy --optimize 3 out.pdf Voyelles02.pdf
.
Les numéros 1, 3 et 4 avaient été faits sans jbig2
. J’ai essayé ça pour le numéro 2 et continué ainsi.
On recommande le TIFF comme format supérieur au JPEG (comprimé avec pertes).
J’ai essayé le JPEG pour le no 32.
Ce n’est pas moins bon, mais ce n’est pas plus léger comme fichier final. J’ai donc repris le TIFF.
J’ai essayé aussi au bureau une machine qui fait tout toute seule, d’un coup : un PDF avec le texte dedans. Le numéro 7 est, en gros, huit fois plus léger que les autres ! Le texte ne semble pas mauvais, même meilleur (plutôt mieux positionné) que chez moi. Par contre, la définition n’est pas suffisante. Les numéros 8, 9 et 10 sortent de la même machine, avec une meilleure définition, mais je dois encore revoir certaines options. (Les caractères sont plus complets en gris qu’en noir et blanc, mais je n’arrive pas encore à avoir un gris plus contrasté, plus noir.)
Retour à OCRmyPDF, avec ScanTailor Advanced.
Un chose très importante, c’est la qualité des images et j’ai trouvé un programme pour cela.
Je scanne en une demi-heure les 100 pages du no 11 de Voyelles sur mon scanner à plat,
couleur pour les pages couleur, gris pour le reste.
Je fais un traitement des images scannées avec ScanTailor Advanced,
dans lequel je sélectionne le contenu, je le redresse s’il est un peu de travers.
Je considère tout à priori comme noir sur blanc, puis je reviens à Color pour les pages couleur
et à Mixed pour celles qui contiennent des photos ou des textes dans un encadré de fond gris.
Les différentes opérations successives sur toutes les pages en ScanTailor Advanced, ça me prend au moins trois quarts d’heure.
Enfin je réunis les images du dossier de sortie du traitement en ScanTailor Advanced
en les envoyant à OCRmyPDF par la commande :
img2pdf out/*.tif | ocrmypdf -l fra --jbig2-lossy --optimize 3 - Voyelles11.pdf
6.
Là, ça va vraiment vite.
Il faut à ocrmypdf
un peu moins de 30 secondes pour lire tout ce qu’img2pdf
lui envoie.
Il faut environ 45 secondes pour reconnaître les caractères de ces 100 pages avec l’aide de Tesseract.
— J’ai maintenant une machine plus puissante, où sur 16 corps Tesseract traite 16 pages à la fois. —
Il faut encore environ 15 secondes pour les optimisations finales et la conversion du PDF en PDF/A.
La même commande sans jbig2
et sans optimize
donne un fichier de 60 Mo.
Avec ces options, cela devient 43 Mo sans perte visible de qualité.
[1] Voyelles (en préparation)
[Cahiers du Grif, numéro 23-24 (1978), p. 137.]
Au début de 1978 paraîtra un nouveau magazine, belge celui-ci, dont un « modèle réduit » est sorti récemment sous forme de numéro zéro.
Voyelles, un nouveau magazine féminin, belge. Conçu, écrit, géré, réalisé par une équipe de femmes. Paraîtra une fois par mois et coûtera 60 francs. Sera à l’image des femmes de notre temps, curieuses, intelligentes, dynamiques.
Voyelles donnera la parole aux femmes d’une ville, d’une région, pour mieux faire connaître ses écoles, ses emplois, ses crèches, ses loisirs, ses problèmes économiques et sociaux, pour aider à mieux s’insérer dans la vie communautaire.
En 1979, Voyelles suivra et rendra compte, à partir du vécu des femmes engagées, de l’année internationale de l’enfance, des élections sociales en Belgique, des élections européennes.
Voyelles donnera des informations pratiques sur le droit à l’emploi, la consommation, l’éducation permanente, le planning familial.
Voyelles parlera du bonheur… Dira les relations des femmes entre elles, des femmes avec les hommes (nos compagnons de vie ou de travail, nos frères, pères, nos patrons). Elle dira aussi nos relations avec nos parents, nos enfants, nos amis…
Voyelles sera un lieu de création. Elle publiera des photographies, des dessinatrices. La nouvelle et la Bande dessinée y auront leur place.
Voyelles bricolera, coudra, cuisinera, tricotera, fouinera, et la mode contournera.
Voyelles publiera chaque mois l’agenda des spectacles, films, concerts, l’agenda des expositions, annoncera les fêtes folkloriques et autres. Vous y trouverez une sélection des programmes de radio et de télévision.
Voyelles sera aussi la boîte aux lettres de l’une et de l’autre… pour créer ensemble une chaîne de solidarité.
Adresse : Avenue Messidor 24 (Suzanne van Rokeghem), 1180 Bruxelles, tél. 347 22 78.
[2] Dans la numérotation, il y a des sauts, l’encart couleur ayant changé de place.
[3] Marqué par erreur 19 en couverture, mais bien juin — et bien 20 en page 3.
[4] J’ai dit au programme qui pilote le scanner de ne pas me renvoyer l’image de la page, mais de la passer à la moulinette du script ci-dessous et de me renvoyer le résultat.
#! /usr/bin/perl -w
# Xsane to Tesseract by EquinoxeFR (http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl)
# Using Tesseract 3.04, I tested that Tesseract accepts raw input. I drop the conversion to TIFF.
# Dominique Meeùs , https://d-meeus.be, 23-4-2017.
# Slow Tesseract 4, workaround about thread limit, rev. 1-6-2018.
use strict;
use Getopt::Long;
my $logfile = "/tmp/tesseract.log";
my $lang;
my $inputfile;
my $outputfile;
GetOptions (’log=s’ => \$logfile,
’l=s’ => \$lang,
’i=s’ => \$inputfile,
’o=s’ => \$outputfile
);
open (LOG,"> $logfile") or die "Error Opening log file $logfile\n";
print LOG "Xsane to Tesseract by EquinoxeFR\n";
print LOG "-i $inputfile\n";
print LOG "-o $outputfile\n";
print LOG "-l $lang\n";
print LOG `OMP_THREAD_LIMIT=1 tesseract -l $lang "${inputfile}" "${outputfile}" pdf 2>&1`;
unlink( "${outputfile}");
close(LOG);
Ah ! ce script, je trouve ça beau comme un poème5.
Je scanne ainsi une page après l’autre et j’obtiens de chacune un PDF, avec texte dedans,
que ne j’ai plus qu’à rassembler par :
pdftk out0*.pdf cat output Voyelles01.pdf
.
Élémentaire, mon cher Watson. Mais le PDF est trop gros.
J’ai donc immédiatement abandonné cette méthode pour celles que je décris ensuite.
(Par ailleurs, je ne suis pas sûr que la précaution OMP_THREAD_LIMIT=1
soit encore utile aujourd’hui.)
[5] J’admets que ça nous confronte à la question difficile de savoir ce qui est de l’art — ou non. De fait, j’adore les tableaux des primitifs flamands et il ne viendrait à l’esprit de personne de contester que c’est de l’art. Mais j’aime aussi les moules de Broodthaers et même un petit Ben, ou ce genre de choses, de temps à autre. On pourrait dire que l’art, c’est ce qui donne un peu le vertige et le script de la note précédente, il me donne un peu le vertige.
[6] Dans
la syntaxe de cette commande, attention au dernier trait d’union,
après tous les paramètres, mais devant le nom du fichier de sortie Voyelles11.pdf.
C’est cet obscur petit signe qui représente le fichier PDF de sortie
de la commmande img2pdf
au début de la ligne,
fichier fourni en entrée à ocrmypdf
.