Управление инцидентами

Управление инцидентами: от обнаружения до закрытия и постмортема.

Цели

Обнаружение — алерт, сообщение пользователя или мониторинг.
Регистрация — создание инцидента (тикет, канал), назначение владельца/on-call.
Классификация — severity (см. Severity Levels), затронутые системы.
Реагирование — следование Runbooks, эскалация при необходимости (Escalation Policy).
Стабилизация — восстановление работы, коммуникация заинтересованным сторонам.
Закрытие — инцидент закрыт, метрики обновлены.
Постмортем — для значимых инцидентов: Postmortems — разбор причин и действий.

Incident Lead — координирует реагирование, принимает решения по приоритетам.
On-call — первый ответственный за реагирование (см. On-call).
Коммуникация — информирование стейкхолдеров и пользователей при необходимости.

Тикеты: создание и ведение инцидентов в выбранной системе (Jira, GitLab Issues и т.д.).
Каналы связи: чат (Slack, etc.) для координации и эскалации.
Мониторинг и алерты: Grafana, PagerDuty/Opsgenie (или аналог) для уведомления on-call.

На странице