Skip to content

Instantly share code, notes, and snippets.

@palrogg
Last active September 24, 2016 09:00
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save palrogg/ab3f1c2640c403e5709b763d5263be4c to your computer and use it in GitHub Desktop.
Save palrogg/ab3f1c2640c403e5709b763d5263be4c to your computer and use it in GitHub Desktop.
Résumé programme NY

A la suggestion de Magali Philip, j’ai rédigé un résumé du programme de trois mois sur le datajournalisme que je viens de suivre à New York. Les points principaux:

  1. se méfier des données
  2. ne pas dépendre d’outils
  3. éviter trop d'interactivité
  4. le datajournalisme est une forme d’investigation

1) Se méfier des données

Les données sont toujours biaisées, délibérément ou non. Toute base de données est une représentation simplifiée et partielle de la réalité.

Imaginer ceux qui ont entré les données pour mieux comprendre les erreurs présentes dans le fichier. Exemple: les entreprises doivent remplir elles-mêmes un formulaire et le renvoyer à l’administration, des fonctionnaires remplissent une fiche avant leur pause de midi, un stagiaire a été engagé pour remplir des feuilles Excel.

Le choix des données publiées, la manière de les traiter et leur présentation peuvent les biaiser. L’analyse de ces données est toujours une interprétation.

Utiliser les statistiques pour explorer rapidement des données, c’est bien, mais ça ne remplace pas le fait de les visualiser. Il faut se rappeler que des datasets très différents peuvent avoir la même moyenne, variance et coefficient r (cf. le Quartet d’Anscombe).

Exemple suisse-romand: les datasets du catalogue Open Data du SITG (Service d'information du territoire à Genève) viennent de services très différents et les fichiers sont au départ destinés à leurs "partenaires". C'est deux choses à garder en tête.

2) Ne pas dépendre d’outils fermés

Les logiciels et outils en ligne d’analyse des données sont en général facile à utiliser, mais limités. On est conduit à l’intérieur d’un tunnel. Les services gratuits peuvent devenir payants, restreints ou s’interrompre sans prévenir.

A côté de ça, on peut utiliser d’excellents logiciels et modules Python libres:

  • le langage Python avec les modules Pandas (analyse de données, proche de R), matplotlib (visualisations) et scikit-learn (data mining et machine learning)

  • la librairie JavaScript D3.js pour créer des visualisations, qu’on peut exporter pour le print avec SVG Crowbar

  • QGIS et Topojson pour traiter les géodonnées

3) Se méfier de ce qui est interactif

Partir du principe que le lecteur ne survole rien avec la souris et ne clique sur rien. Dans une visualisation, l’interaction doit être le dernier recours.

Elles ont un effet « wow » séduisant, mais les animations ou l’interactivité ne doivent pas rendre les données plus difficiles à comprendre.

4) Le datajournalisme est une forme de journalisme d’investigation

Trouver les données n’est que la première étape. Faire un graphique n’est pas du datajournalisme. Dans l’emballement d’une trouvaille, toujours se demander à quel point elle est pertinente. Eviter les fausses corrélations comme celle-ci: http://fivethirtyeight.com/datalab/opinions-about-the-iran-deal-are-more-about-obama-than-iran/

Etant donné le temps que prend l’analyse des données puis leur exploitation avec du journalisme « classique », il faut développer un très bon workflow. C’est quelque chose d’assez personnel qui dépendra de votre manière de travailler.


Si ça vous dit d’en discuter plus, lors du prochain Meetup de l'association opendata.ch mardi, Barnaby Skinner (spécialiste du data au Tagi) et moi parlons de l’importance de « scraper » des données, il reste 5 places à l'heure où je tape ces lignes.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment