Comment WikiLeaks analyse/traite-t-il les documents qu'il reçoit ?

Attention, cette réponse est ancienne. Son contenu peut être en tout ou partie obsolète.

Question

WikiLeaks certes recueille une masse documentaire massive, mais je me demande comment ceux-ci font pour non seulement gérer cette information, mais comment rendre cette masse utilisable. Publier n'importe quoi et n'importe comment n'est pas réaliste, un travail en amont doit être fait, mais comment ? Et lequel ? Merci d'avance !

Réponse

Date de la réponse : 07/01/2020

Vous voulez savoir comment WikiLeaks parvient à exploiter les masses documentaires massives qu'il reçoit.

Nos recherches sur le terme Wikileaks dans le Sudoc, le portail Thèses et la base de données Cairn ne nous ont pas permis d’identifier de document qui réponde à votre question.

Ce documentaire sur l’histoire Wikileaks présente peut-être en partie les solutions mises en œuvre pour traiter de grandes masses de documents : We steal secrets : the story of WikiLeaks (présentation).

Un article du Point (2015) confirme que le tri des documents et le traitement des informations qu’ils contiennent constitue un véritable défi :

Comment les documents sont-ils triés ? La célébrité soudaine du site, après la mise en ligne des "Pentagon Papers" en 2010, a entraîné un afflux de documents. Et il a fallu faire un tri drastique pour identifier les documents prioritaires, les documents peu importants et, bien sûr, les documents falsifiés par l'expéditeur dans le but de nuire à un ennemi ou un concurrent. Une partie de l'équipe de WikiLeaks travaille donc à l'analyse des fichiers reçus, pour les classer selon ces critères. (...)
Un autre travail de tri a lieu, dans les documents eux-mêmes, pour les épurer des informations qui pourraient nuire inutilement.

Source : Comment fonctionne WikiLeaks ? Guerric Poncet. Le Point.fr, 11/07/2015

Un article de la revue Genèses (2014) décrit la collaboration avec de larges équipes de « journalistes expérimentés, exigeants et porteurs d’une haute vision des standards de la profession : vérification, analyse, mise en perspective, filtrage, synthèse, sélection, protection des individus, implication des avocats pour s’assurer du respect de la loi, croisement des sources… » :

« Le traitement des données a nécessité un travail considérable, avec ses découragements et ses enthousiasmes. On a une petite équipe d’une vingtaine de personnes qui ont travaillé là-dessus. Comme ça dans tous les journaux. Et puis il fallait se coordonner avec les autres journaux. On a comparé tout ce qu’on a trouvé dans les télégrammes, les sources. Ça a été un exemple incroyable de coopération entre différents journaux. »

Source : Wikileaks, les médias et la diplomatie. Yves Buchet de Neuilly. Genèses 2014/1 (n° 94), pages 140 à 158

Pour aller plus loin, vous pouvez vous renseigner sur les techniques du journalisme de données, de la vérification des faits et de l’exploration de données. Voilà quelques références :

Ressources en ligne :

Data Journaliste : l’investigateur des données. Data analytics post
Paradise Papers : qui sont les journalistes du consortium international ICIJ ? & Comment ont pu être publiés les Panama Papers ? Radio France, 2017. Extrait :

" Les data journalistes du monde entier, qui ont communiqué par des mails et des chats codés, ont notamment employé des logiciels de reconnaissance de caractères (OCR), pour extraire le texte des images. Et ils ont fait appel à la start-up française Linkurious, déjà mobilisée sur les Swiss Leaks".

What does data journalism look like today? A 10-step guide. Simon Rogers. Medium, 2017
Datajournalism. Nicolas Kayser-Bril, 2015
The Data Journalism Handbook 2. Datajournalism.com

Manuels :

Data mining : découverte de connaissances dans les données. Daniel T. Larose, Chantal D. Larose. Vuibert, 2018
Les robots vont-ils remplacer les journalistes ? Damien Desbordes. Plein jour, 2018. Débat avec l’auteur

Articles universitaires :

Les mythes professionnels des fact-checkeurs : un journalisme de données au service de la vérité. Ysé Vauchez. In Politiques de communication, 2019/1 (N° 12), pages 21 à 44
Le journalisme saisi par les Big Data ? Résistances épistémologiques, ruptures économiques et adaptations professionnelles. Alexandre Joux et Marc Bassoni. in Les Enjeux de l'information et de la communication, 2018/2 (N° 19/2), pages 125 à 134