Bardyl/checklist.md Secret

## checklist.md

      
    Raw
  

              checklist.md
            
          
    Début de checklist non exhaustive interne en cas de détection de réception d'alertes répétées sur l'infrastructure de production du groupe Humanoid (Frandroid, Numerama, Madmoizelle, etc.)
Problème détecté, évacuer une cause purement technique « interne »

Vérification rapide auprès des équipes tech.

[ ] Depuis quelle durée ?

[ ] Déploiement en cours ? Finalisé en erreur depuis quelques minutes ?

[ ] Actions en cours ?
Check des moniteurs d'activité de prod.

[ ] Rapports d'erreurs disponibles ?

[ ] Ouverture rapide APM & co (munin, new relic)
Vérifications hébergeur

[ ] Problème machine ?

[ ] Problème réseau ?

[ ] Pages status / abonnements RSS
Un serveur attaqué ? Un domaine ?

[ ] Vérification Graylog.

[ ] Vérifications CloudFlare (status + attaque en cours).

[ ] Premiers checks infra Proxmox, non deep.
Communication phase 1.

[ ] Slack - équipe techniques (« restez dans le coin »).

[ ] Slack - direction (« problème en cours, on revient vers vous très vite »).

[ ] Slack - équipes éditoriales (« attention, problème en cours, backupez votre travail »).

[ ] Possible ouverture d'une discussion avec principaux concernés.

[ ] Éventuellement prestataires
Questions à répondre ASAP.

[ ] Quels impacts concrets en live ?

[ ] Quelle échelle / taille ?

[ ] Quelle mitigation / protection supplémentaire possible ?

[ ] Quelle communication interne ?

[ ] Quels risques éventuels ?