A la suggestion de Magali Philip, j’ai rédigé un résumé du programme de trois mois sur le datajournalisme que je viens de suivre à New York. Les points principaux:
- se méfier des données
- ne pas dépendre d’outils
- éviter trop d'interactivité
- le datajournalisme est une forme d’investigation
Les données sont toujours biaisées, délibérément ou non. Toute base de données est une représentation simplifiée et partielle de la réalité.
Imaginer ceux qui ont entré les données pour mieux comprendre les erreurs présentes dans le fichier. Exemple: les entreprises doivent remplir elles-mêmes un formulaire et le renvoyer à l’administration, des fonctionnaires remplissent une fiche avant leur pause de midi, un stagiaire a été engagé pour remplir des feuilles Excel.
Le choix des données publiées, la manière de les traiter et leur présentation peuvent les biaiser. L’analyse de ces données est toujours une interprétation.
Utiliser les statistiques pour explorer rapidement des données, c’est bien, mais ça ne remplace pas le fait de les visualiser. Il faut se rappeler que des datasets très différents peuvent avoir la même moyenne, variance et coefficient r (cf. le Quartet d’Anscombe).
Exemple suisse-romand: les datasets du catalogue Open Data du SITG (Service d'information du territoire à Genève) viennent de services très différents et les fichiers sont au départ destinés à leurs "partenaires". C'est deux choses à garder en tête.
Les logiciels et outils en ligne d’analyse des données sont en général facile à utiliser, mais limités. On est conduit à l’intérieur d’un tunnel. Les services gratuits peuvent devenir payants, restreints ou s’interrompre sans prévenir.
A côté de ça, on peut utiliser d’excellents logiciels et modules Python libres:
-
le langage Python avec les modules Pandas (analyse de données, proche de R), matplotlib (visualisations) et scikit-learn (data mining et machine learning)
-
la librairie JavaScript D3.js pour créer des visualisations, qu’on peut exporter pour le print avec SVG Crowbar
Partir du principe que le lecteur ne survole rien avec la souris et ne clique sur rien. Dans une visualisation, l’interaction doit être le dernier recours.
Elles ont un effet « wow » séduisant, mais les animations ou l’interactivité ne doivent pas rendre les données plus difficiles à comprendre.
Trouver les données n’est que la première étape. Faire un graphique n’est pas du datajournalisme. Dans l’emballement d’une trouvaille, toujours se demander à quel point elle est pertinente. Eviter les fausses corrélations comme celle-ci: http://fivethirtyeight.com/datalab/opinions-about-the-iran-deal-are-more-about-obama-than-iran/
Etant donné le temps que prend l’analyse des données puis leur exploitation avec du journalisme « classique », il faut développer un très bon workflow. C’est quelque chose d’assez personnel qui dépendra de votre manière de travailler.
Si ça vous dit d’en discuter plus, lors du prochain Meetup de l'association opendata.ch mardi, Barnaby Skinner (spécialiste du data au Tagi) et moi parlons de l’importance de « scraper » des données, il reste 5 places à l'heure où je tape ces lignes.