Раздел описывает эксплуатацию платформы: инциденты, дежурства, процедуры и управление изменениями.
Разделы
| Страница | Описание |
|---|---|
| Дежурство | Дежурства и первичное реагирование |
| Управление инцидентами | Жизненный цикл инцидента |
| Уровни серьёзности | Уровни серьёзности |
| Политика эскалации | Эскалация |
| Постмортемы | Разбор инцидентов |
| Руководства | Операционные процедуры |
| Управление изменениями | Управление изменениями |
| Непрерывность бизнеса | Непрерывность бизнеса |
По задаче
| Задача | Документ |
|---|---|
| Попал инцидент / алерт | Управление инцидентами → Уровни серьёзности, Политика эскалации |
| Дежурство и обязанности | Дежурство |
| Выполнить процедуру | Руководства |
| Разобрать инцидент после стабилизации | Постмортемы |
| Внести изменение в инфраструктуру или приложение | Управление изменениями |
| План на крупный сбой | Непрерывность бизнеса |
Для кого
- SRE и on-call — ежедневное реагирование и runbook’и.
- Тимлиды и владельцы сервисов — эскалация, постмортемы, улучшение процедур.
Связанные страницы
- Платформа / Наблюдаемость — логи, метрики, алерты
- Каталог сервисов — владельцы сервисов
- Кому писать — контакты