Skip to content

Instantly share code, notes, and snippets.

@labynocle
Last active April 19, 2024 12:41
Show Gist options
  • Save labynocle/35a4c5b7411c5497c0e30398531b580a to your computer and use it in GitHub Desktop.
Save labynocle/35a4c5b7411c5497c0e30398531b580a to your computer and use it in GitHub Desktop.
TP/Projet de datavisualization

TP/Projet DataViz avec la stack ELK

Objectif

L'objectif de ce TP/Projet est de prendre en main la stack ELK afin de mener un projet de bout en bout de collecte et de représentation de data.

Le rendu attendu sera :

  • un document décrivant le workflow/architecture de votre projet
  • l'ensemble des scripts, fichiers de configurations, etc...que vous avez produit
  • ainsi qu'un rapide rapport sur le TP/prise en main (problèmes rencontrés, résultats obtenus...)

Prise en main de la stack ELK

En vous basant sur le projet labynocle/elk-demo le but va etre de démarrer une stack ELK et d'y injecter vos premières data.

Partie 01

⚠️ faites valider que tout est ok à ce stade

Partie 02

  • créez votre premier index pattern
  • créez votre première query
  • créez plusieurs visualizations représentant au moins: la répartition homme/femme, le top 10 des noms, des villes le nombre de versions differentes il y a
  • créez un dashboard regroupant ces visualizations

⚠️ faites valider que tout est ok à ce stade

Partie 03

  • cleanez les data que vous avez injecté dans votre stack (en utilisant Cerebro)
  • changez la conf de logstash pour créer un nouveau champs email_domain reprenant le domain de l'adresse mail uniquement (erwan@aleikoum.net > aleikoum.net), pensez à regarder comment mutate fonctionne
  • une fois que c'est ok, créez une visualization avec le top 10 des domaines

⚠️ faites valider que tout est ok à ce stade

Projet de datavisualization

Vous avez maintenant les bases pour manipuler les data dans la stack ELK. Il est temps de vous faire votre propre projet.

  • trouvez vous une idée de projet (en vous posant la question: ai je accès à une source de données pouvant répondre à mon besoin et puis je automatiser sa récupération?
  • discutez avec l'encadrant de la faisabilité et de l'ambition du projet

⚠️ ne vous lancez pas sur la partie pratique du projet si vous n'avez pas eu la validation

  • lancez vous !

Le rendu attendu sera :

  • un script qui récupère/traite les données que vous récupérez (en python par exemple)
  • les configurations logstash que vous utilisez
  • un schema explicitant toute votre chaîne data: de la source, en passant par votre script, logstash , elasticsearch jusqu'a kibana
  • les screenshots des visualisations que vous avez réalisé
  • votre avis sur ce qui pourrait être fait de mieux dans votre projet, les prochains steps, comment ça pourrait passer à l'échelle etc...

Links

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment