Dominique Meeùs
Dernière modification le
retour à la table des matières
— au dossier marxisme
Versie 1.11 van 7-8-2018
Ik heb eerst een vreemde PDF gekregen, puur beeld PDF (zonder tekst), en geen PDF van het boek zelf, getuige OCR-fouten. Ik had dus zichtbaar het resultaat van een OCR-behandeling … zonder tekst! Ik moest dus het OCR overdoen (optische tekenherkenning) met Tesseract.1 De tekst werd dan gecorrigeerd en de spelling gemoderniseerd.2 Verkorting van jaren werd behouden in uitdrukkingen als “de jaren 60” (zonder apostrof), maar niet voor een specifiek jaartal : “in ’71” bij voorbeeld werd als “in 1971” genormaliseerd. (Met uitzondering voor ‘eigennamen’ als ’60-’61 of ’68.) Verwijzingen werden gecontroleerd en verduidelijkt. Volgens huidige internationale normen werd spatie gebruikt voor een groep van drie cijfers. In het geval van Marx, Engels en Lenin is zoveel mogelijk verwezen naar het Marxistisch Internet-Archief.
Het resultaat werd met het boek vergeleken.
Paginanummers zijn in lichtgrijs gemarkeerd, op hun plaats in de tekst (maar zonder woorden te breken), om verwijzing naar het boek te vergemakkelijken.
De tekst werd in TEI XML gecodeerd (Text Encoding Initiative)3 en van daar met XSLT transformaties (door de TEI voorzien) in HTML pagina’s omgevormd.4 Grafieken in de vorm van een kromme (in 112 bis alleen) zijn uit het boek gekopieerd als een afbeelding. Alle andere grafieken werden in SVG gecodeerd.5 Wiskundige formules werden in MathML gecodeerd.6