Retour sur la Biennale du numérique 2015 | Métiers du livre (2/4) : édition XML-TEI, écriture et document numérique

Par Catherine MULLER le 09 février 2016

Nous poursuivons notre série de billets consacrés à la Biennale du Numérique qui se tenait le 23 et 24 novembre dernier à l'Enssib sur les mutations des métiers du livre au regard du numérique. Le deuxième atelier de l'après-midi avait pour objectif d'explorer les coulisses de production du document numérique en explorant la chaîne d'édition et de publication XML-TEI et la logique de programmation au coeur de l'écriture numérique.

Nous publions les synthèses rédigées par les étudiants du master 2 PUN de l'Enssib, promotion 2015-16, et relues par les intervenants des ateliers1

Principes, outils et méthodes de la « Chaîne d’édition structurée XML-TEI » - Par Dominique Roux 

Dominique Roux est responsable éditorial des Presses universitaires de Caen et co-pilote du segment « Édition » de l'infrastructure BSN2 Docteur en histoire, il est l’un des concepteurs de la chaîne d’édition structurée XML-TEI de l’Aedres3

Synthèse rédigée par Valentin Famelart

Dominique Roux nous présente ce qu'est la chaîne éditoriale XML-TEI4Cette chaîne, utilisée par plus de 30 établissements en France, permet aux éditeurs de structurer les textes des chercheurs afin de pouvoir les exporter dans tous les formats de diffusion utilisés par la communauté pour échanger des données.

Dominique Roux commence par contextualiser en nous définissant ce qu'est l'édition : il s'agit du processus intellectuel qui permet de partir d'un texte fourni par l'auteur pour aboutir à la production d'un livre. Ce processus a été bouleversé très tôt par le numérique. L'apparition de la composition par ordinateur a entraîné une perte de compétences au sein des maisons d'éditions. Symétriquement, une partie de la mise en forme est passée sous la responsabilité de l'auteur. D'après Dominique Roux, le numérique mal maîtrisé à son apparition dans le monde de l'édition est responsable d'une perte de qualité des produits édités.

Le numérique augmente également la quantité et la nature des fichiers créés et échangés. Face à cette masse de données se pose le problème de l'archivage à long terme. Il est nécessaire de formater les fichiers correctement, en utilisant des règles communes, pour pouvoir exploiter à long terme les donnée et retrouver des informations précises. Le choix s'est porté sur le langage de structuration et de balisage XML. Son principal avantage est de fournir par un travail de balisage une description structurelle du document qui permet de dissocier le fond et la forme.

Le rôle des concepteurs est d'abord de choisir les balises et les classes à utiliser, puis de créer des outils capables de manipuler ce langage. Ces outils doivent être proches de ceux utilisés par les auteurs (OpenOffice par exemple). La chaîne éditoriale est basée sur le langage à balisage XML et sur un vocabulaire partagé, sous ensemble de la TEI. Les documents sont encodés selon le standard Unicode qui garantit la pérennité des fichiers. Les métadonnées des documents sont transcodables sous la norme Onix5 (Online Information eXchange), partagée très largement, qui permet de distribuer les fichiers de façon très large.

Une fois cette phase de structuration accomplie, on peut sur la base d'un seul travail éditorial unique exporter le document vers de nombreux supports : web, ebook, support imprimé, en parution sur des sites dédiés (Cairn, OpenEdition, Revues.org) ou encore en PDF. Et tout cela, peu importe le modèle économique de la maison d'édition, les outils étant, dans ce domaine, neutres. L'objectif de cette chaîne éditoriale est de créer un réservoir de productions normalisées et un catalogue à disposition des éditeurs, dont les contenus pourront être diffusés sur les sites  de partage de l'édition scientifique.

La chaîne XML-TEI est diffusée parmi les presses universitaires d'un grand nombre de pays francophones et hispaniques. Elle est à la fois partagée par les chercheurs et par les éditeurs. L'objectif est de ne pas bouleverser le travail de rédaction : l'auteur ne doit pas être perturbé dans son travail. Il rédige son texte puis le fournit à l'éditeur qui le structure au fil du travail éditorial. Cela exige le développement d'outils de transcodage ainsi que l'utilisation d'un éditeur XML dédié pour les modifications locales et le contrôle de conformité.

La création de cette chaîne permet des gains intéressants : la mutualisation de l'effort de développement permet des économies structurelles; le travail éditorial est factorisé et bénéficie à toutes les formes de diffusion; l'utilisation du format de métadonnées Onix facilite le partage des textes; le rôle de l'éditeur dans sa relation avec l'auteur est clarifié; l'encodage en Unicode assure une longue pérennité des données.

De l'écriture imprimée à l'écriture programmée - Par Stéphane Crozat

Stéphane Crozat6 est enseignant au génie informatique de l'université de technologie de Compiègne et chercheur au sein du laboratoire Costech

Synthèse rédigée par Eléonore de Macedo

La problématique ici est de voir pourquoi et comment l’écriture et le document numérique sont transformés par le fait d’utiliser un ordinateur, et donc par le calcul. Écrire avec un ordinateur c’est écrire avec une machine à calculer, donc c'est un processus qui est sous-tendu par une logique de programmation. Comment est-ce que l’informatique transforme le fait d’écrire ?

Stéphane Crozat prend pour exemple l'utilisation du logiciel libre Scenari qu'il a contribué à développer avec la communauté de chercheurs et d'ingénieurs de l'UTC. La logique derrière cet outil est celle du WYSIWYM (What You See Is What You Mean), c'est-à-dire que l’écriture est transformée dans toutes ses dimensions, de sa création à la façon dont elle apparaît au lecteur, dans sa distribution et sa diffusion.

Il y a une différence de logique par rapport à l’écriture papier, traditionnelle ; cette dernière cherche à préserver les qualités graphiques de l’écriture, avec le numérique le rapport au monde est transformé : l’écriture computationnelle et la programmation cherchent à exploiter les propriétés calculatoires du numérique.

Il y a un enjeu très fort de littératie numérique, les compétences qu’on développe pour se servir de l’outil et donc la façon dont on va se former, qui vont nous permettre de maîtriser l’écriture numérique : au sens graphique, calculatoire (et donc il faut apprendre à programmer), et l’articulation qui existe entre les deux est la problématique la plus importante.

Les différentes problématiques de l’écriture numérique sont : l’accessibilité, le multimédia, le multisupport, différencier selon le parcours et l’utilisateur. Scenari est un logiciel qui est modulé selon l’auteur qui va s’en servir, et qui utilise des règles pour répondre à un problème précis (cf. Écriture à profondeur variable ou multi linéaire ou dépendant des inputs, de l’interaction avec le lecteur ; variable de texte calculée avec un « if », l’éditeur cherche à produire un énoncé adaptable. Mettre en place une procédure pré paramétrée pour toute une classe de produits par exemple.)

Conclusion : on va avoir de plus en plus de mal à écrire sans se poser des questions d’algorithmes, de stockage etc. Sans qu'on en soit toujours conscient, utiliser un # (hashtag) pour écrire sur Twitter, c’est fondamentalement de la programmation.


Notes

[1] l'ensemble des interventions enregistrées en séance plénière est disponible sur notre site, ainsi qu'un compte-rendu de la journée sur le BBF.

[2Bibliothèque scientifique numérique.

[3Association des éditeurs de la recherche et de l’enseignement supérieurDominique Roux participe à son développement au sein du pôle « Document numérique » de la Maison de la recherche en sciences de l’homme de Caen. Il mène également une activité de formation aux techniques de l’édition structurée, tant dans le cadre de masters d’édition (Caen, Tours, Paris-Sorbonne…) qu’auprès des personnels des structures éditoriales publiques.

[4] TEI pour Text Encoding Initiative. Pour aller plus loin, on pourra se reporter à l'ouvrage de référence rédigé en anglais What is the Text Encoding Initiative ? de Lou Burnard, paru chez OpenEdition Press en 2014 et traduit en français en 2015, qui rappelle l’intérêt et la finalité de l’utilisation de la TEI pour les Sciences humaines et sociales : une description précise des documents, l’interopérabilité entre différents systèmes, un archivage pérenne…Construit comme un guide à destination des non-spécialistes, il reprend les bases XML nécessaires à l’encodage et propose un parcours découverte dans l’univers de la TEI.

[5] On pourra se reporter sur ces questions d'intéropérabilité au billet du 8 décembre 2015 sur Le livre numérique en bibliothèque : état des lieux et perspectives, qui aborde la complexité de l'écosystème numérique sous l'angle des formats et standards d'édition.

[6Stéphane Crozat mène depuis 1998, des activités d'enseignement et de recherche en informatique à l'université de Technologie de Compiègne, spécialisées en ingénierie des documents numériques. Ses spécificités sont de s'inscrire dans une approche de recherche technologique fondée sur l'articulation entre recherche théorique, usages réels et développements informatiques ; d'avoir co-inventé et de participer à l'élaboration du logiciel Scenari, logiciel de conception de chaînes éditoriales encore aujourd'hui unique en son genre ; et d'articuler son enseignement de l'informatique avec l'usage du document numérique pour la pédagogie.

Tags : Biennale du numérique, Edition numérique, Encodage XML-TEI, Ingénierie des documents numériques, Ecritures numériques, Document numérique, Text Encoding Initiative, Langage de structuration et de balisage XML, Ecriture computationnelle, Logiciel libre Scenari, Système de gestion de chaînes éditoriales, Normes, Métadonnées, Algorithmes, Programmation, Chaîne éditoriale XML-TEI, Presses universitaires de Caen, Bibliothèque scientifique numérique, BSN, Association des éditeurs de la recherche et de l’enseignement supérieur, AEDRES, Université de Technologie de Compiègne, UTC, Laboratoire Costech, Métiers du livre, métiers du numérique, Littératie numérique, Culture numérique, Dominique Roux, Stéphane Crozat

Liens réseaux sociaux