AI-Ops Documentation

Разбор инцидентов после стабилизации: причины, выводы и действия по предотвращению повторений.

Цель

Понять корневую причину без поиска виноватых.
Зафиксировать факты, таймлайн и принятые решения.
Определить действия: исправления, улучшение мониторинга, обновление runbook’ов, изменения в коде или процессах.

Когда проводить

Обязательно для инцидентов S1 и S2.
По решению команды — для S3 при повторяющихся или поучительных случаях.

Формат

Краткое описание — что произошло, когда, какой сервис/функция затронуты.
Таймлайн — ключевые события от первого признака до стабилизации.
Корневая причина — техническая и/или процессная.
Что сработало / что нет — действия по реагированию, коммуникация, инструменты.
Действия — список задач с владельцами и сроками (багфиксы, алерты, документация, обучение).
Уроки — что изменить в архитектуре, процессах или runbook’ах.

Документ хранится в репозитории или wiki; ссылка — в тикете инцидента.

Культура

Postmortem — blameless: фокус на системе и процессах, а не на персональной вине.
Участие всех, кто был вовлечен в реагирование и кто может внести вклад в выводы.

Связанные страницы

Incident Management — процесс инцидентов
Runbooks — обновление процедур после инцидента
Severity Levels — когда постмортем обязателен

Политика эскалации Ранбуки

На странице

Цель Когда проводить Формат Культура Связанные страницы