Biennale du numérique 2025, parole aux intervenants : rencontre avec Stéphane Chaudiron

Professeur des universités en Sciences de l’information et de la communication, membre du laboratoire de recherche Geriico (Groupe d’études et de recherche interdisciplinaire en information et communication) de l’université de Lille, membre élu du Comité national des universités - section 71, Stéphane Chaudiron est directement impliqué dans les questions « métiers » des professionnels de l’information comme responsable du Master « Veille et communication de l’information stratégique », mais également en étant membre de l’ADBS (Association des professionnels de l’information et de la documentation).
Il est également président du conseil scientifique de l'Enssib, membre du conseil scientifique de la MSH Paris Nord et co-directeur de la revue Études de Communication.

Vous avez accepté d’assurer la conférence inaugurale de la Biennale du numérique 2025 qui portera sur la question de la gouvernance des données, et nous vous en remercions.

À ce propos, certains auteurs parlent d’un véritable « déluge de données » (Gordon, Hey & Szalay. 2009), et la question des « données » est sur toutes les lèvres. Mais, finalement : est-ce si nouveau ?
Une étude de Statista prédit en effet qu’en 2025, le volume mondial de données atteindra 181 zettaoctets (Zo) et pourrait atteindre 394 Zo d’ici 2028. Ce sont des chiffres vertigineux qui illustrent les effets de la transformation digitale et la centralité des données dans l’économie mondiale. Même si une petite partie seulement de ces données seront effectivement utilisées et traitées.
Ceci dit, la question du « déluge des données » n’est pas nouvelle et c’est même devenu un lieu commun que d’affirmer que la quantité de données produite n’a jamais été aussi grande. Les métaphores sont nombreuses pour tenter d’illustrer le phénomène, déluge de données, océan de données, flot de données… La revue The Economist y consacrait déjà sa couverture il y a plus de 15 ans ainsi qu’un article intitulé « The data deluge » dans l’édition du 27 février 2010. Plus généralement, la question du « déluge de données » s’inscrit dans le contexte de la « surcharge informationnelle », notion bien plus ancienne proposée par Bertram Gross en 1962 puis popularisée par le futurologue Alvin Toffler dans les années 1970.
La « surinformation » (ou infobésité) décrit une situation bien connue des professionnels de l’information, en particulier des documentalistes et des veilleurs. On peut rappeler à cet égard que les techniques et outils documentaires développés dès les années 1950 avaient précisément pour objectif de faciliter l’accès à une information primaire, essentiellement dans le domaine de l’information scientifique et technique, dont le volume augmentait si rapidement qu’il était devenu nécessaire de disposer d’outils spécialisés. De nombreux travaux ont essayé de quantifier cette augmentation. Par exemple, les travaux pionniers du physicien et historien des sciences anglais Derek de Solla Price ont montré au début des années 1950 que la production scientifique doublait tous les 10 à 15 ans. Cette croissance exponentielle a donc nécessité la conception d’outils et de techniques documentaires adaptés, je pense en particulier aux travaux de Mortimer Taube sur le thésaurus documentaire (1953), à ceux de Hans Peter Luhn sur l’indexation dérivée (1958) ou à ceux menés au sein de l’ICSU Abstracting Board pour normaliser la rédaction des résumés documentaires.
Pour en revenir à la question initiale, la métaphore du « déluge des données » renvoie donc à une réalité qui est nommée depuis bien longtemps mais la question est de savoir si les enjeux sont identiques ou si on assiste à un changement de paradigme.
Pouvez-vous détailler ces enjeux ?
Les enjeux et défis auxquels nous sommes confrontés sont nombreux et concernent plusieurs dimensions qui sont toutes cruciales mais dont certaines me semblent moins discutées.
La dimension technologique est évidente et est soulignées par de très nombreux commentateurs. La gestion des infrastructures, les questions de stockage, de pérennité et d’accessibilité, les modalités de traitement et les questions liées à la cybersécurité sont des enjeux que je qualifierais de classiques. C’est le cœur technologique de la gouvernance des données.
Une deuxième dimension concerne la question de la souveraineté des données, au moins telle qu’elle est définie habituellement, à savoir le respect de la vie privée, de la confidentialité de l’information et du droit, notamment celui de la propriété intellectuelle, dans les processus liés au traitement des données. La souveraineté des données est une notion qui est souvent définie par rapport à l’autorité et au contrôle exercés sur les données numériques. En ce sens, elle englobe l’ensemble des processus de protection et chiffrement dans la transmission et le stockage des données, en particulier dans le contexte du cloud computing. Cette question de souveraineté n’est d’ailleurs pas étrangère à celle de « tiers de confiance » qui a émergé au début des années 2000 dans le cadre des travaux menés sous l’égide du Haut responsable chargé de l’intelligence économique. Le tiers de confiance désigne une entreprise, par exemple un éditeur de solution de veille, qui garantit la confidentialité des traitements pour ses clients, tant sur le plan technique que juridique.
L’impact environnemental du stockage et du traitement des données représente également un enjeu écologique absolument majeur. Démesurément amplifiées dans le contexte de l’IA générative, les émissions de gaz à effet de serre des grandes entreprises de la tech ont augmenté dans des proportions très importantes. Le chercheur en sciences de l’information et de la communication Sébastien Broca rappelle ainsi que Microsoft a doublé ses émissions réelles (c’est-à-dire sans tenir compte des mécanismes de compensation) entre 2020 et 2024. Dans un article, paru dans Le Monde diplomatique en juillet dernier, il souligne le flou entretenu par ces entreprises, qu’il s’agisse d’OpenAI, d’Anthropic, de Google ou des autres, par rapport à leur empreinte énergétique, essentiellement carbonée. L’auteur insiste également sur le discours de leurs dirigeants qui prétendent, de manière assez paradoxale, que l’IA résoudra, à terme, les problèmes liés au réchauffement climatique. On peut également citer une étude récente réalisée par l’ADEME-Arcep, publiée en 2025, qui estime que l’empreinte carbone générée pour un an de consommation de biens et services numériques en France en 2022 représente l’équivalent de 4,4 % de l’empreinte carbone nationale.
Une dernière dimension, que je crois fondamentale mais qui est peu évoquée, est celle de l’indépendance informationnelle. Cette dimension n’est pas nouvelle et a déjà été évoquée par Antoine Lefébure et Maurice Ronai dans un article du Monde diplomatique de novembre 1979. Dans cet article, les auteurs s’inquiétaient de la situation monopolistique croissante des États-Unis dans les secteurs de la production des bases de données et des réseaux de transmission. Considérant les risques de cette situation asymétrique, ils évoquaient notamment l’hypothèse de blocus partiels, temporaires, ou sectoriels de la part de pays en matière d’accès aux données. Force est de constater que la situation en 2025 semble vérifier cette hypothèse. En janvier, l’Administration Trump a pris la décision de supprimer des millions de données scientifiques et de cesser d'alimenter la base de données environnementales et sociales, produite par la NOAA (Agence américaine d’observation océanique et atmosphérique). Cette agence était le plus grand fournisseur mondial de données météorologiques et climatiques, utilisées par des scientifiques du monde entier. D’après les calculs du projet Way back archive machine, plus de 2 000 jeux de données ont disparu des bases de données publiques, sans parler de toutes les références aux politiques pour la diversité, l’inclusion, l’équité et la justice climatique qui ont été supprimées de centaines de sites internet.
Cet enjeu d’indépendance informationnelle me semble d’autant plus important à l’heure de l’open science et de l’open data, en particulier pour les données de la recherche. Cette ouverture s’appuie sur l’idée d’échanges symétriques et équitables entre les acteurs. Or que se passe-t-il quand un pays, comme actuellement les États-Unis dans le cas de la base de la NOAA, décide de « fermer le robinet » des données ? Indépendamment des conséquences de cette fermeture, mais qui sont très importantes sur le plan scientifique et des prises de décision démocratiques, se pose la question de la pérennité du modèle de l’ouverture, et sans doute de sa pertinence, au moins pour certains types de données et d’informations.
L’enjeu peut être non seulement stratégique mais aussi démocratique. À un moment où l’on s’inquiète de la prolifération des fake news, des ingérences extérieures dans nos systèmes d’information et de communication, où l’on constate des phénomènes de rachat et de concentration des médias aux mains de quelques industriels, comme Bolloré ou Saada, il importe d’être attentif non seulement à la question de la souveraineté mais aussi à celle du pluralisme informationnel.
Dans leur article, Lefébure et Ronai proposaient une définition de la notion de souveraineté qui reste d’actualité, au moins en partie : elle réside dans « la capacité de traiter sur place l’information produite sur place, de retenir et de transférer soi-même les technologies, de suivre par ses propres moyens la littérature scientifique mondiale ».
Quelle place occupe les « données » et leur « gouvernance » dans l’environnement informationnel que nous connaissons aujourd’hui ? Mais peut-être faut-il circonscrire cette notion, mais aussi celle de « gouvernance » : comment les abordez-vous ?
Compte tenu des enjeux évoqués plus haut, la question de la gouvernance des données est une question éminemment politique.
Tout d’abord en terme de politique scientifique. Même si le terme peut paraître désuet, l’information scientifique et technique (IST) demeure un enjeu important car elle conditionne tout le processus d’innovation et de compétitivité. Pendant un peu moins de trente ans, des années 1980 à la fin des années 2010, s’est mise en place et structurée une véritable politique en matière d’IST au niveau de l’État. Au-delà de la question de l’ouverture de la science, ne conviendrait-il pas de réintroduire dans le débat public la question de la souveraineté dans ce domaine ? L’exemple de la fermeture de la base de données environnementales et sociales produite par la NOAA est un bon cas d’école qui justifierait de discuter de la question.
Un autre aspect est la politique d’open data ou ouverture des données menée en France. Suite à la création de la mission Etalab en 2011, la loi pour une République numérique promulguée en 2016 a instauré l’obligation pour les grosses administrations et collectivités territoriales de rendre accessibles les données présentant un intérêt économique, social, sanitaire ou environnemental. Le livre de Samuel Goëta, Les données de la démocratie, revient sur la genèse de l’open data en France et dresse un bilan détaillé et contrasté des résultats. À travers des exemples extrêmement documentés, l’auteur montre également comment des associations de citoyens s’emparent des données publiques, parfois avec difficulté, pour créer des outils de renforcement de la démocratie, comme les sites nosdeputes.fr et nossenateurs.fr. Ce livre souligne en particulier la réticence de certaines administrations à ouvrir leurs données.
Un troisième aspect de la gouvernance concerne les choix technologiques opérés par les acteurs publics et privés et dont les conséquences sont immenses. Ainsi, depuis plus d’une dizaine d’années, à travers l’évolution de leurs infrastructures techniques, les entreprises de la tech ont établi un nouvel ordre économique dans lequel l’expérience humaine est marchandisée. Derrière un pseudo-discours de progrès et de rationalité se cachent, comme l’ont montré Jürgen Habermas ou Lucien Sfez, des choix politiques qui nécessitent d’être analysés, discutés, mis en cause par les citoyens dans un cadre démocratique. Dans son excellent ouvrage L’Âge du capitalisme de surveillance, Shoshana Zuboff décrit par le détail les stratégies mises en place par les industriels de la tech pour capter, maîtriser et monétiser les données personnelles. Elle montre ainsi que ces industries, souvent avec l’aval des États, ont édifié un nouvel ordre économique qui revendique l’expérience humaine comme matière première.
Dans un court article de 2024, rédigé avec votre collègue Bernard Jacquemin, vous identifiez cinq défis à relever pour les professionnels de l’information. L’ouverture des données est le défi 2, après et dans le prolongement de l’Open Science. Quels défis cela représente pour ces professionnels ?
Le mouvement d’ouverture des données, qu’il s’agisse des données scientifiques ou non, concerne en effet directement les professionnels de l’information. Ils ont un rôle central à jouer tout au long du processus, qui va de la production des jeux de données à leur diffusion et leur archivage. Ils sont par exemple directement impliqués dans la documentation des données afin d’améliorer leur qualité et leur fiabilité et garantir que celles-ci seront comprises par les utilisateurs. En tant que curateurs des données, ils vérifient la conformité des jeux de données par rapport aux règles établies par l’administrateur de la collection et s’assurent du respect des principes FAIR (Findable, Accessible, Interoperable, Reusable) en produisant des métadonnées complètes (producteur, date de production, identifiants pérennes, licences d’utilisation, etc.). Au-delà du stockage et de la diffusion, ils assurent également l’archivage des données, notamment des données de recherche, dans une démarche patrimoniale et réglementaire.
Un autre aspect de leur implication concerne l’accompagnement à la production et la diffusion des data papers. Ces derniers prennent en effet une importance croissante dans le paysage de l’IST, en particulier en sciences de la vie et de la santé.
Plus généralement, les professionnels de l’information ont un rôle à jouer en qui concerne la diffusion d’une culture des données (data literacy) qui intègre des dimensions technique, organisationnelle, juridique…
Un autre défi, qui concerne plus particulièrement les professionnels de la veille, porte sur l’intégration croissante des données dans le processus de veille. Il me semble qu’on assiste en ce moment à une convergence entre les pratiques de veille « qualitative » fondée en grande partie sur le traitement de documents textuels et les pratiques d’analyse de données. Cette convergence pose par ailleurs un défi en terme de formation car elle implique que les veilleurs soient formés aux techniques et outils de la data analysis.

Propos recueillis par Emmanuel Brandl
Le 29 septembre 2025