Целевые показатели доступности и качества сервисов (Service Level Objectives) и обязательства перед пользователями (SLA).
SLO (внутренние цели)
- Availability — доля успешных запросов или доля времени доступности (например, 99.9% за месяц). Для критичных сервисов (API Gateway, Identity, Credential) — высокий целевой уровень.
- Latency — процентили задержки (p50, p95, p99); например, p99 < 200 ms для auth-запросов.
- Error budget — допустимое количество ошибок или недоступности в рамках периода; при исчерпании бюджета — фокус на стабильности, заморозка фич по решению команды.
SLA (обязательства)
- Формальные SLA перед внешними или внутренними заказчиками формулируются на основе SLO с учетом последствий при нарушении (кредиты, эскалации). Конкретные цифры задаются договорами и внутренними политиками.
Мониторинг
- Метрики доступности и задержки собираются Prometheus; дашборды в Grafana; алерты при приближении к нарушению SLO или при исчерпании error budget.
- Отчетность по SLO (burn rate, текущая доступность) — периодически для ревью и принятия решений.
Связанные страницы
- Service Catalog / Criticality — приоритет сервисов
- Observability / Metrics — сбор метрик
- Observability / Alerting — алерты по SLO
- Incident Management — реагирование при нарушении