Правила эскалации при инцидентах: когда и кому передавать ответственность.
Принципы
- On-call — первый уровень реагирования; при невозможности решить в рамках SLA по severity или при необходимости экспертизы — эскалация.
- Эскалация идет по цепочке: on-call → тимлид/второй уровень → владелец сервиса / архитектор при необходимости.
- Время без ответа или без прогресса по инциденту также является триггером эскалации.
Уровни
| Уровень | Роль | Когда привлекать |
|---|---|---|
| L1 | On-call | Первичный отклик на алерт; выполнение runbook |
| L2 | Тимлид / старший инженер | Нет прогресса за N минут; нужна координация или решение по откату |
| L3 | Владелец сервиса / архитектор | Архитектурное решение, коммуникация с бизнесом, критические сбои |
Конкретные таймауты и контакты задаются внутренней конфигурацией (календарь on-call, контакты в PagerDuty/аналоге).
Каналы
- Уведомления в канал инцидентов и в систему вызова (PagerDuty, Opsgenie и т.п.).
- При эскалации — явное упоминание в тикете и в канале, назначение ответственного следующего уровня.
Связанные страницы
- Incident Management — жизненный цикл инцидента
- Severity Levels — уровни серьезности
- On-call — дежурства
- Who to Contact — контакты владельцев