Face à l’immensité du Big Data, les stratégies des journalistes d’investigation

Les journaux du mardi 5 octobre 2021 à Nairobi, au Kenya, alors que viennent d'être publiés les Pandora Papers.
Les journaux du mardi 5 octobre 2021 à Nairobi, au Kenya, alors que viennent d'être publiés les Pandora Papers. AP - Brian Inganga

Quantité de données stratégiques sont disponibles sur le web et noyées dans son immensité. Les fuites de millions de fichiers, comme les Pandora Papers, s’ajoutent à ce puits sans fond. Pour faire face à cet afflux de données exponentiel, les journalistes d’investigation coopèrent aux quatre coins du monde, développent de nouvelles stratégies et s’appuient sur des outils informatiques puissants.

Publicité

Que sont, concrètement, les Facebook Files, cette fuite de données provenant de Facebook orchestrée par une ancienne employée, Frances Haugen ? Des dizaines de milliers de documents, des PDF, des photos, des scans, des fichiers mails. Un chiffre dont l’ampleur est difficile à visualiser. Une broutille, comparée aux télégrammes diplomatiques de l’administration américaine révélés par WikiLeaks entre 2010 et 2011, qui représentaient un peu plus de 250 000 fichiers. Un chiffre à mettre en perspective également : en octobre dernier, le Consortium International des Journalistes d’Investigation (ICIJ) a chiffré les Pandora Papers à plus de 11,9 millions de documents PDF, de fichiers Excel, de capture d’écrans, de scans et autres fichiers informatiques.

Dans cette perspective, l’ICIJ coordonne des forces investigatrices internationales en mettant à disposition une immense force de frappe numérique. L’ONG, basée à Washington, est autant un média rassemblant une quarantaine de salariés qu’un réseau de centaines de journalistes d’investigation à travers le monde. Le consortium est à l’origine des Pandora Papers, mais aussi des Panama Papers, des Paradise Papers... Pour Pierre Romera, le directeur de la technologie au sein du consortium, ces réussites sont liées à une stratégie : « Il y a une volonté de mettre la technologie au service du journalisme. C’est pour cela que par rapport à la petite taille de l’ICIJ, on a des capacités pour traiter des données, des documents, qui sont bien plus fortes que des médias qui ont des centaines de journalistes. »

Trier grâce au code informatique

Les évolutions technologiques de ces dernières années ont permis un gain de temps pour trier les millions de fichiers. « Je me souviens des télégrammes de WikiLeaks en 2010, où des confrères et consœurs, face à une partie seulement de ces documents, avaient toutes les peines du monde à faire des recherches par mot clé, alors que c’étaient des données hyper structurées. Aujourd’hui, on pourrait faire ce type de recherche sur un smartphone, c’est immédiat », décrit Titus Plattner, journaliste d’investigation et chargé de projets d’innovation chez Tamedia, un média suisse. L’ICIJ, notamment, a développé, sur des logiciels en libre accès, des algorithmes pour aider au tri et au partage des milliers de documents.

L'extraction des Pandora Papers a coûté dans les 15 000 à 20 000 dollars.

 

Quand un lanceur d’alerte contacte le consortium pour fournir des données comme les Panama Papers, Pierre Romera les récupère en main propre ou à distance. Il les stocke ensuite dans des serveurs sécurisés, avant de commencer le tri : « On utilise des outils qui sont capables d’extraire le texte d’une multitude de formats de documents, de l’e-mail au PDF, en passant par le fichier Word, Excel, des images. Ce processus est long et coûteux : l’extraction des Pandora Papers a coûté dans les 15 000 à 20 000 dollars. (...) À l’heure actuelle, on a une soixantaine de serveurs qui font fonctionner tous les services de l’ICIJ utiles pour nos enquêtes. »

 

L'interface utilisateur de Datashare, le logiciel développé par le consortium, qui permet de rechercher dans des millions de documents des expressions variées.
L'interface utilisateur de Datashare, le logiciel développé par le consortium, qui permet de rechercher dans des millions de documents des expressions variées. © Pierre Romera

 

C’est Datashare, le logiciel développé par l’ICIJ, qui est chargé d’extraire les textes des millions de documents. Il utilise en partie de l’apprentissage machine, des algorithmes très complexes. « On se base sur des “pipeline d’extraction”, des algorithmes capables de reconnaître des noms de personnes, de lieux, d’entités, des formes de fichiers, comme des factures », décrit Pierre Romera. Ces noms ou ces formes sont ensuite référencés dans des tableurs, avec des liens vers les fichiers correspondants.

Un travail aux quatre coins du monde

Les données triées sont ensuite accessibles aux membres du réseau de l’ICIJ. Car Datashare, en plus d’être un extracteur de données, est aussi un outil de partage et de recherche. Delphine Reuter est data journaliste au sein du consortium. « S’il y avait une organisation particulière des dossiers à l’origine, vous pourrez visualiser cette organisation dans Datashare. Donc, si le journaliste s’intéresse à un document parce qu’il y a un nom précis dedans, il pourra aussi voir tous les documents qui font partie du même dossier. »

L’équipe technique de l’ICIJ a également développé une sorte de réseau social des journalistes d’investigation. Bien avant le télétravail généralisé des premiers confinements, le réseau fonctionnait déjà sur une plateforme dématérialisée, le Global iHub. « C’est une plateforme sécurisée accessible sur les ordinateurs des journalistes, c’est là qu’ils mettent en commun leurs recherches. On crée des groupes en fonction de ce qui les intéresse et ils peuvent ensuite communiquer entre eux », détaille Delphine Reuter. Tous les noms découverts dans les fichiers sont postés sur le groupe correspondant à leurs régions. Un journaliste peut ainsi étudier les documents stockés sur Datashare, confirmer ou pas le nom repéré par les algorithmes, et commencer une enquête.

 

La page d'accueil de iHub, le réseau sur lequel échangent tous les journalistes membres du consortium.
La page d'accueil de iHub, le réseau sur lequel échangent tous les journalistes membres du consortium. © Pierre Romera

 

Développer ses propres logiciels ou se baser sur de l’open source est une question d'indépendance stratégique pour les rédactions. Mais cela coûte cher. Tom Lebrun est un juriste spécialisé dans le numérique et les logiciels intelligents. Pour lui, il vaut mieux investir que de se baser sur des logiciels privés : « Un média qui n’a pas beaucoup d’argent peut développer des systèmes en interne, mais doit faire attention à ne pas travailler sur un code privé qui fait gagner du temps, mais qui permet à l’entreprise qui le détient de couper l’accès quand elle le souhaite. »

L’argent, toujours le nerf de la guerre. L’ICIJ, grâce aux dons de fondations (90%) et de particuliers, avait en 2019 un budget annuel de 6 millions d’euros. Ses logiciels, eux, sont en accès libre pour tous les médias. D'où l'intérêt de s'associer : le « projet Pegasus », une enquête du consortium Forbidden stories sur un logiciel espion israélien, est un autre exemple de collaboration entre journalistes d'investigation. 

De multiples applications

Le consortium n’utilise pas des algorithmes seulement pour analyser les fichiers liés à l’optimisation fiscale. L’ICIJ travaille aussi sur des projets précis, à la demande de journalistes de différents pays. Delphine Reuter a participé à une enquête retraçant le parcours d’antiquités cambodgiennes. « On avait une question précise des journalistes : est-ce que l’on peut retracer les antiquités sans doute volées par telle ou telle personne au sein des musées ? Avec les catalogues, les sites web des musées, on a composé un tableur pour condenser les informations et obtenir des chiffres globaux. » Ces méthodes passent notamment par du scrapping, une sorte de siphonnage des données d’un site web par un algorithme qui va stocker les informations récupérées dans un tableau.

Pour Maëlle Fouquenet, analyste de données et journaliste, les progrès des algorithmes ouvrent de nouvelles voies pour les journalistes d’investigation. Face aux fuites des données, d’une part, mais aussi pour arpenter le web, qui regorge d’informations. « Ce que je trouve hyper intéressant, c’est la faculté que cela donne d’aller enquêter sur des sujets dans des territoires qui sont inaccessibles par manque de temps, par manque de moyens », s’enthousiasme la journaliste.

Une radio publique allemande a ainsi réalisé une enquête sur des groupes Facebook privés dans lesquels circulent des publications illicites. « Ils ont utilisé du machine learning pour faire de la détection d’image ou de l’analyse de texte. Leur terrain d’investigation, c’est Facebook, et leur outil de l'apprentissage machine, du code. Ils en ont sorti une enquête montrant que Facebook ne modérait pas suffisamment le discours de haine. L’algorithme a permis de détecter automatiquement plus de 10 000 publications problématiques. », raconte la journaliste. Analyser des images satellites pour repérer des mines sauvages d'ambre, révéler des scandales de corruption, dénoncer des annonces illégales… Les applications sont multiples.

Former les journalistes

Reste que les journalistes doivent être formés, ou bien accompagnés. Comme en télévision, où le journaliste rédacteur est accompagné d’un journaliste reporter d’image qui filme, les journalistes d’investigation pourraient être associés à des développeurs talentueux. Titus Plattner, journaliste d'investigation, plaide également pour éduquer à la façon dont fonctionnent les algorithmes et les technologies de l'information. « Je pense qu’il faut enseigner la pensée computationnelle aux gens dès le plus jeune âge, car c’est quelque chose qui prend de plus en plus de place dans nos vies, et nous, journalistes, on doit aussi expliquer ces enjeux. »

De con côté, Pierre Romera, du ICIJ, regrette la formation encore timide des journalistes au code informatique : « Aujourd’hui, les écoles forment un petit peu sur ce type de journalisme, mais il n’y a quasiment pas de formation avec un niveau technique comparable à ce que l’on peut faire lorsqu'on met dans la même pièce des développeurs et des journalistes. »

 

 

Tom Lebrun appelle à la prudence des journalistes face au développement d'algorithmes de plus en plus autonomes. Le juriste insiste : « Il faut constamment adapter les algorithmes à chaque enquête ; avec des mises à jour régulières, et surtout, ne jamais faire confiance à la machine. Des biais existent toujours, c’est là que le journaliste doit être vigilant et vérifier chaque information. » Par exemple, des erreurs humaines dans les documents peuvent avoir empêché le bon déroulement du processus de sélection. Autre biais, l'algorithme se basant sur des statistiques, s'il n'a pas été suffisamment entraîné ou n'a pas assez de données sur lesquelles construire sa sélection, son efficacité peut diminuer d'autant. 

Sur des sujets aussi sensibles, ce dernier ne remplacera donc pas le journaliste, tous s’accordent à le dire. C’est un outil puissant, qui, bien employé, devrait permettre aux journalistes de multiplier les révélations du même type que les Panama Papers, dont les conséquences sur la réalité sont concrètes.

NewsletterRecevez toute l'actualité internationale directement dans votre boite mail

Suivez toute l'actualité internationale en téléchargeant l'application RFI