Организация дежурств для реагирования на инциденты и алерты.
Цель
- Обеспечить наличие ответственного за первичное реагирование на алерты и сбои в рабочее и нерабочее время.
- Быстро привлекать нужных людей по Escalation Policy.
Принципы
- Ротация дежурных (по расписанию).
- Четкое определение зон ответственности (какие сервисы/алерты входят в on-call).
- Инструменты уведомлений (PagerDuty, Opsgenie или аналог) и доступ к логам, метрикам и runbook’ам.
Обязанности on-call
- Реагировать на алерты в согласованные SLA (время отклика).
- Следовать Runbooks и при необходимости эскалировать по Escalation Policy.
- Регистрировать инциденты и обновлять статус в процессе Incident Management.
- После инцидента участвовать в постмортеме при необходимости.
Расписание и эскалация
- Расписание дежурств ведется в выбранном инструменте (календарь, PagerDuty и т.д.).
- Вторичный on-call или тимлид указываются для эскалации; детали в Escalation Policy.
Связанные страницы
- Incident Management — процесс инцидентов
- Runbooks — процедуры реагирования
- Escalation Policy — эскалация
- Who to Contact — контакты владельцев сервисов