Runbook : lire et exploiter un postmortem

L'agent SRE rédige automatiquement un postmortem 24 h après chaque incident. Comment le lire, le valider, le publier.

Postmortem automatique

L'agent SRE (plan Entreprise) rédige automatiquement un draft de postmortem 24 h après la fin d'un incident :

$ paas incidents:list --since 7d
$ paas incidents:postmortem INC-2026-0414

Structure d'un postmortem

Le draft suit une structure standard, inspirée de Google SRE et Atlassian :

  1. Résumé exécutif en 2 phrases
  2. Impact : durée, services affectés, utilisateurs touchés, requêtes en échec
  3. Timeline minute par minute, avec sources : alertes, déploiements, actions humaines
  4. Cause racine identifiée (ou hypothèse si non encore confirmée)
  5. Comment c'est revenu à la normale : action décisive et pourquoi elle a marché
  6. Ce qui a bien marché : monitoring qui a déclenché, runbook qui a aidé
  7. Ce qui a mal marché : retards, fausses pistes, alertes ratées
  8. Actions correctives avec deadlines et responsables proposés

Relire et corriger

Le draft est généré par l'IA, vous devez le relire avant de le considérer comme officiel :

  1. Vérifier la timeline : l'IA peut avoir corrélé des events qui n'étaient pas liés
  2. Valider la cause racine : c'est le point le plus important, ne pas accepter une cause approximative
  3. Chiffrer l'impact si l'IA n'a pas pu le faire seule
  4. Ajuster le ton : pas de jugement personnel sur les responsabilités
  5. Compléter les actions correctives avec des owners

Postmortem blameless

L'agent rédige toujours en mode blameless : on parle de systèmes et de processus, pas de personnes. Si quelqu'un a poussé du code qui a cassé, le postmortem demande pourquoi le système a permis que ce code soit poussé en prod, pas qui a fait l'erreur.

Publier

Une fois validé, le postmortem peut être :

  • Publié interne à votre organisation : tous les membres y accèdent en lecture seule
  • Publié sur votre status page publique : pour les incidents avec impact client
  • Exporté en PDF pour vos auditeurs internes ou DORA reporting
$ paas incidents:postmortem INC-2026-0414 --publish internal
$ paas incidents:postmortem INC-2026-0414 --export pdf > pm.pdf

Suivre les actions correctives

Les actions correctives sont trackées dans le dashboard, avec deadlines et responsables. L'agent SRE relance automatiquement les owners 7 jours avant échéance.