Dominique Meeùs
Dernière modification le
retour à la table des matières
— à l’index
— à ma page de départ
Un point suivi d’une espace correspond bien à la situation d’une fin de phrase dans un alinéa, mais aussi aux abréviations. Certaines abréviations sont connues d’OmegaT et font exception à la segmentation. On peut ajouter dans les options d’OmegaT des règles de segmentation, positives ou négatives : il ne faut pas segmenter à certaines abréviations ; il faut segmenter à un point suivi non d’une espace mais d’une parenthèse, d’un guillemet fermant, etc. Des auteurs utilisent des abréviations fantaisistes. En néerlandais, par exemple, « bij voorbeeld » s’abrège en « bv. » ou « bijv. », pas en « bvb. », « vb. » et autres. Il vaut la peine de corriger avant de commencer dans OmegaT, plutôt que d’introduire en option de segmentation trop d’abréviations non classiques.
Il y a cependant des situations où il faut empêcher la segmentation autrement qu’en introduisant une exception. On ne peut excepter la segmentation après un point d’interrogation, qui marque généralement la fin d’une phrase. Mais un point d’interrogation peut avoir aussi le statut de virgule : dans la phrase « Où ? quand ? comment ? », seul le troisième est fin de phrase. Il faut empêcher la segmentation des autres. La segmentation suppose que suive un blanc, éventuellement avec une parenthèse ou un guillemet interposés. Interposer n’importe quoi d’imprévu suffit à neutraliser la segmentation. Je me propose de mettre là l’espace insécable de largeur nulle U+FEFF 1 qui n’est pas très dérangeant.
J’avais un problème non résolu avec « etc. » (ou plus souvent pour moi avec « enz. ») qui fait l’objet d’une exception justifiée. Mais si ça se trouve en fin de phrase, OmegaT ne coupe pas et la phrase suivante restera jointe. Je ne vois pas d’autre moyen de forcer la segmentation, là ou dans d’autres cas où on pourrait le vouloir le faire, que d’introduire un caractère conventionnel qu’on risque peu de rencontrer dans un texte source. On crée alors en OmegaT, en Valeurs par défaut (valeurs pour toutes les langues), la règle de segmenter après ce caractère. J’adopte pour diverses raisons 2 le séparateur invisible U+2063.
Intercaler des caractères parasites n’est pas très satisfaisant pour l’esprit, mais
il est impossible de concevoir une segmentation qui ne demande pas parfois d’intervention
manuelle. Si on traduit régulièrement des auteurs qui abrègent zaterdag en zat., ou bien on introduit un obstacle à la segmentation comme U+FEFF
, ou bien, pour ne pas parasiter le fichier avec ce genre de caractère, on introduit
une exception à la segmentation pour zat.. Mais dans ce cas, si plus loin une phrase se termine en … waar ik zat., il faudra quand même parasiter le fichier, comme avec mon U+2063
, pour forcer la segmentation.