Разбор инцидентов после стабилизации: причины, выводы и действия по предотвращению повторений.
Цель
- Понять корневую причину без поиска виноватых.
- Зафиксировать факты, таймлайн и принятые решения.
- Определить действия: исправления, улучшение мониторинга, обновление runbook’ов, изменения в коде или процессах.
Когда проводить
- Обязательно для инцидентов S1 и S2.
- По решению команды — для S3 при повторяющихся или поучительных случаях.
Формат
- Краткое описание — что произошло, когда, какой сервис/функция затронуты.
- Таймлайн — ключевые события от первого признака до стабилизации.
- Корневая причина — техническая и/или процессная.
- Что сработало / что нет — действия по реагированию, коммуникация, инструменты.
- Действия — список задач с владельцами и сроками (багфиксы, алерты, документация, обучение).
- Уроки — что изменить в архитектуре, процессах или runbook’ах.
Документ хранится в репозитории или wiki; ссылка — в тикете инцидента.
Культура
- Postmortem — blameless: фокус на системе и процессах, а не на персональной вине.
- Участие всех, кто был вовлечен в реагирование и кто может внести вклад в выводы.
Связанные страницы
- Incident Management — процесс инцидентов
- Runbooks — обновление процедур после инцидента
- Severity Levels — когда постмортем обязателен