AI-Ops Documentation

Организация дежурств для реагирования на инциденты и алерты.

Цель

Обеспечить наличие ответственного за первичное реагирование на алерты и сбои в рабочее и нерабочее время.
Быстро привлекать нужных людей по Escalation Policy.

Принципы

Ротация дежурных (по расписанию).
Четкое определение зон ответственности (какие сервисы/алерты входят в on-call).
Инструменты уведомлений (PagerDuty, Opsgenie или аналог) и доступ к логам, метрикам и runbook’ам.

Обязанности on-call

Реагировать на алерты в согласованные SLA (время отклика).
Следовать Runbooks и при необходимости эскалировать по Escalation Policy.
Регистрировать инциденты и обновлять статус в процессе Incident Management.
После инцидента участвовать в постмортеме при необходимости.

Расписание и эскалация

Расписание дежурств ведется в выбранном инструменте (календарь, PagerDuty и т.д.).
Вторичный on-call или тимлид указываются для эскалации; детали в Escalation Policy.

Связанные страницы

Incident Management — процесс инцидентов
Runbooks — процедуры реагирования
Escalation Policy — эскалация
Who to Contact — контакты владельцев сервисов

Эксплуатация Управление инцидентами

На странице

Цель Принципы Обязанности on-call Расписание и эскалация Связанные страницы