Runbook : lire et exploiter un postmortem
L'agent SRE rédige automatiquement un postmortem 24 h après chaque incident. Comment le lire, le valider, le publier.
Postmortem automatique
L'agent SRE (plan Entreprise) rédige automatiquement un draft de postmortem 24 h après la fin d'un incident :
$ paas incidents:list --since 7d
$ paas incidents:postmortem INC-2026-0414
$ paas incidents:postmortem INC-2026-0414
Structure d'un postmortem
Le draft suit une structure standard, inspirée de Google SRE et Atlassian :
- Résumé exécutif en 2 phrases
- Impact : durée, services affectés, utilisateurs touchés, requêtes en échec
- Timeline minute par minute, avec sources : alertes, déploiements, actions humaines
- Cause racine identifiée (ou hypothèse si non encore confirmée)
- Comment c'est revenu à la normale : action décisive et pourquoi elle a marché
- Ce qui a bien marché : monitoring qui a déclenché, runbook qui a aidé
- Ce qui a mal marché : retards, fausses pistes, alertes ratées
- Actions correctives avec deadlines et responsables proposés
Relire et corriger
Le draft est généré par l'IA, vous devez le relire avant de le considérer comme officiel :
- Vérifier la timeline : l'IA peut avoir corrélé des events qui n'étaient pas liés
- Valider la cause racine : c'est le point le plus important, ne pas accepter une cause approximative
- Chiffrer l'impact si l'IA n'a pas pu le faire seule
- Ajuster le ton : pas de jugement personnel sur les responsabilités
- Compléter les actions correctives avec des owners
Postmortem blameless
L'agent rédige toujours en mode blameless : on parle de systèmes et de processus, pas de personnes. Si quelqu'un a poussé du code qui a cassé, le postmortem demande pourquoi le système a permis que ce code soit poussé en prod, pas qui a fait l'erreur.
Publier
Une fois validé, le postmortem peut être :
- Publié interne à votre organisation : tous les membres y accèdent en lecture seule
- Publié sur votre status page publique : pour les incidents avec impact client
- Exporté en PDF pour vos auditeurs internes ou DORA reporting
$ paas incidents:postmortem INC-2026-0414 --publish internal
$ paas incidents:postmortem INC-2026-0414 --export pdf > pm.pdf
$ paas incidents:postmortem INC-2026-0414 --export pdf > pm.pdf
Suivre les actions correctives
Les actions correctives sont trackées dans le dashboard, avec deadlines et responsables. L'agent SRE relance automatiquement les owners 7 jours avant échéance.