Управление инцидентами: от обнаружения до закрытия и постмортема.
Цели
- Быстро восстановить работоспособность сервиса.
- Минимизировать влияние на пользователей.
- Зафиксировать факты и выводы для предотвращения повторений.
Жизненный цикл инцидента
- Обнаружение — алерт, сообщение пользователя или мониторинг.
- Регистрация — создание инцидента (тикет, канал), назначение владельца/on-call.
- Классификация — severity (см. Severity Levels), затронутые системы.
- Реагирование — следование Runbooks, эскалация при необходимости (Escalation Policy).
- Стабилизация — восстановление работы, коммуникация заинтересованным сторонам.
- Закрытие — инцидент закрыт, метрики обновлены.
- Постмортем — для значимых инцидентов: Postmortems — разбор причин и действий.
Роли
- Incident Lead — координирует реагирование, принимает решения по приоритетам.
- On-call — первый ответственный за реагирование (см. On-call).
- Коммуникация — информирование стейкхолдеров и пользователей при необходимости.
Инструменты
- Тикеты: создание и ведение инцидентов в выбранной системе (Jira, GitLab Issues и т.д.).
- Каналы связи: чат (Slack, etc.) для координации и эскалации.
- Мониторинг и алерты: Grafana, PagerDuty/Opsgenie (или аналог) для уведомления on-call.
Связанные страницы
- Severity Levels — уровни серьезности
- Escalation Policy — эскалация
- Runbooks — операционные процедуры
- On-call — дежурства
- Postmortems — разбор инцидентов