Уровни серьезности инцидентов определяют приоритет реагирования и ожидаемое время отклика.
Уровни
| Уровень | Описание | Примеры | Время отклика (ориентир) |
|---|---|---|---|
| S1 / Critical | Полная или массовая недоступность критичного сервиса; потеря данных; серьезная утечка безопасности | Identity/Credential/API Gateway down; недоступность входа для всех | Немедленно (минуты) |
| S2 / High | Существенная деградация или недоступность для части пользователей; нарушение SLA | Высокая задержка auth, падение одного из регионов | В течение 15–30 мин |
| S3 / Medium | Ограниченное влияние; обходной путь есть; нет потери данных | Отдельные ошибки, сбой некритичного фонового процесса | В течение 1–4 часов |
| S4 / Low | Минимальное влияние; косметические или редко воспроизводимые проблемы | Мелкие баги UI, единичные таймауты | В рабочее время, в рамках SLA тикетов |
Классификация
- Критичность сервиса — см. Service Catalog / Criticality.
- Масштаб влияния — сколько пользователей/запросов затронуто.
- Наличие обходного пути — можно ли временно обойтись без функции.
- Риск для данных и безопасности — возможная потеря данных или утечка повышают severity.
Эскалация
При повышении severity или при превышении времени отклика срабатывает Escalation Policy.
Связанные страницы
- Incident Management — процесс инцидентов
- Escalation Policy — эскалация
- On-call — кто реагирует
- Criticality — критичность сервисов