Skip to content

Instantly share code, notes, and snippets.

@Bardyl
Created December 19, 2023 21:23
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save Bardyl/764176c4ea386b937f5866b82ab280ba to your computer and use it in GitHub Desktop.
Save Bardyl/764176c4ea386b937f5866b82ab280ba to your computer and use it in GitHub Desktop.

Début de checklist non exhaustive interne en cas de détection de réception d'alertes répétées sur l'infrastructure de production du groupe Humanoid (Frandroid, Numerama, Madmoizelle, etc.)

Problème détecté, évacuer une cause purement technique « interne »

Vérification rapide auprès des équipes tech.

[ ] Depuis quelle durée ?
[ ] Déploiement en cours ? Finalisé en erreur depuis quelques minutes ?
[ ] Actions en cours ?

Check des moniteurs d'activité de prod.

[ ] Rapports d'erreurs disponibles ?
[ ] Ouverture rapide APM & co (munin, new relic)

Vérifications hébergeur

[ ] Problème machine ?
[ ] Problème réseau ?
[ ] Pages status / abonnements RSS

Un serveur attaqué ? Un domaine ?

[ ] Vérification Graylog.
[ ] Vérifications CloudFlare (status + attaque en cours).
[ ] Premiers checks infra Proxmox, non deep.

Communication phase 1.

[ ] Slack - équipe techniques (« restez dans le coin »).
[ ] Slack - direction (« problème en cours, on revient vers vous très vite »).
[ ] Slack - équipes éditoriales (« attention, problème en cours, backupez votre travail »).
[ ] Possible ouverture d'une discussion avec principaux concernés.
[ ] Éventuellement prestataires

Questions à répondre ASAP.

[ ] Quels impacts concrets en live ?
[ ] Quelle échelle / taille ?
[ ] Quelle mitigation / protection supplémentaire possible ?
[ ] Quelle communication interne ?
[ ] Quels risques éventuels ?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment