AI-Ops Documentation

Уровни серьезности инцидентов определяют приоритет реагирования и ожидаемое время отклика.

Уровни

Уровень	Описание	Примеры	Время отклика (ориентир)
S1 / Critical	Полная или массовая недоступность критичного сервиса; потеря данных; серьезная утечка безопасности	Identity/Credential/API Gateway down; недоступность входа для всех	Немедленно (минуты)
S2 / High	Существенная деградация или недоступность для части пользователей; нарушение SLA	Высокая задержка auth, падение одного из регионов	В течение 15–30 мин
S3 / Medium	Ограниченное влияние; обходной путь есть; нет потери данных	Отдельные ошибки, сбой некритичного фонового процесса	В течение 1–4 часов
S4 / Low	Минимальное влияние; косметические или редко воспроизводимые проблемы	Мелкие баги UI, единичные таймауты	В рабочее время, в рамках SLA тикетов

Классификация

Критичность сервиса — см. Service Catalog / Criticality.
Масштаб влияния — сколько пользователей/запросов затронуто.
Наличие обходного пути — можно ли временно обойтись без функции.
Риск для данных и безопасности — возможная потеря данных или утечка повышают severity.

Эскалация

При повышении severity или при превышении времени отклика срабатывает Escalation Policy.

Связанные страницы

Incident Management — процесс инцидентов
Escalation Policy — эскалация
On-call — кто реагирует
Criticality — критичность сервисов

Управление инцидентами Политика эскалации

На странице

Уровни Классификация Эскалация Связанные страницы