Biennale du numérique des 18 et 19 novembre 2019, parole aux intervenants : rencontre avec Seth Van Hooland

Seth Van Hooland enseigne depuis dix ans les humanités numériques et l’architecture de l’information à l’Université Libre de Bruxelles (ULB).
À ce titre, il est membre du Comité d’organisation de la Biennale du numérique depuis 2011, date de la création de la manifestation.

Nous avons rencontré Seth Van Hooland, professeur associé à l’Université Libre de Bruxelles et responsable de la conférence introductive de la Biennale du numérique organisée les 18 et 19 novembre 2019 à l’Enssib.

1/ Vous intervenez lors de la prochaine Biennale du numérique que l’Enssib organise. Pourriez-vous vous présenter en quelques mots ? Quels projets conduisez-vous actuellement ?
Suite à des études en histoire et en sciences de l’information, j’ai travaillé en tant qu’account manager pour https://picturae.com qui propose des services de numérisation pour les bibliothèques et des centres d’archives. J’ai entamé ensuite une thèse sur la problématique de la qualité des métadonnées pour le patrimoine numérisé. Après un post-doc à la UC3M à Madrid, j’ai obtenu la chaire en Information Numérique à l’ULB au département d’Information et de la Communication. Actuellement, mon groupe de recherche participe à des projets nationaux tels que http://adochs.be et http://ugesco.be qui se focalisent sur la valorisation du patrimoine culturel sur le web et le rôle des métadonnées en particulier. En parallèle à mes travaux en collaboration avec les musées et bibliothèques, je travaille aussi activement sur la gestion documentaire et le records management au sein de grandes administrations publiques, tels que la Commission Européenne et le Parlement Européen. Pendant l’année académique 2018-2019, je présidais également le département d’Information et de la Communication de l’ULB. À partir de cette année, je reprends la responsabilité du Master en Sciences de l’Information de l’université.

2/ Vous êtes membre du Comité d’organisation de la Biennale du numérique depuis sa création en 2011. À vos yeux, quel est l’intérêt d’un tel événement ?
Aucun autre évènement ne croise de la même manière les mondes académiques et professionnels autour de la thématique du livre numérique et de la gestion de l’information numérique. Par ailleurs, d’un point de vue plus personnel, la Biennale permet de découvrir et d’approfondir mes connaissances du monde du livre numérique, et de revoir des collègues, ainsi que découvrir des nouvelles personnes avec qui l’ULB peut potentiellement collaborer.

3/ Le thème de cette 5^e édition de la Biennale du numérique porte sur la convergence du secteur du livre vers le web. Comment abordez-vous cette question de la convergence ?
Suite à la création et la publication massive de données non-structurées sur le web, les bibliothèques et les archives font de plus en plus appel à des méthodes de type machine learning afin de donner du sens aux données numériques et de proposer une navigation sur la base d’une analyse de contenu. Par exemple, les techniques telles que celle du Topic Modeling permettent d’extraire les termes les plus pertinents d’un point de vu statistique. Afin de lier ces termes à des concepts sémantiques, présentes dans des bases de connaissances comme Wikidata, une autre méthode peut être mobilisée sur la base des Word Embeddings. Cette deuxième méthode dite « non supervisée » permet d’attribuer d’une manière automatisée un label (un terme) à un topic (un concept) : certains mots sont plus souvent associés que d’autres, ce qui permet de les rapprocher. La combinaison originale de ces deux approches permet de créer des liens entre des grands volumes de données non-structurées sur le web ou dit autrement, d’organiser de grandes masses de données éparses par groupes parce que dans les usages ou le langage ces données ou mots sont souvent associés. Le modèle utilisé considère qu’ils peuvent aller ensemble. Ensuite ces groupes sont rapprochés d’un seul mot ou plutôt concept sémantique. Cela permet ainsi de créer de la convergence (notion de la convergence sémantique).

4/ À travers les travaux que vous menez, quels sont les grands enjeux de cette convergence pour le secteur du livre ?
L’évaluation des résultats de méthodes non-supervisées, comme le Topic Modeling et les Word Embeddings, reste problématique aujourd’hui, vu le grand nombre de paramètres qui influencent le processus d’extraction d’information. Un des principaux enjeux pour le secteur, qui fait de plus en plus appel à ces méthodes, consiste en l’élaboration de sets de données permettant le benchmarking des outils et des services disponibles à la fois sur le marché et en open-source.

Propos recueillis par Emmanuel Brandl et Véronique Branchut-Gendron le 16 septembre 2019