AI-Ops Documentation

Целевые показатели доступности и качества сервисов (Service Level Objectives) и обязательства перед пользователями (SLA).

SLO (внутренние цели)

Availability — доля успешных запросов или доля времени доступности (например, 99.9% за месяц). Для критичных сервисов (API Gateway, Identity, Credential) — высокий целевой уровень.
Latency — процентили задержки (p50, p95, p99); например, p99 < 200 ms для auth-запросов.
Error budget — допустимое количество ошибок или недоступности в рамках периода; при исчерпании бюджета — фокус на стабильности, заморозка фич по решению команды.

SLA (обязательства)

Формальные SLA перед внешними или внутренними заказчиками формулируются на основе SLO с учетом последствий при нарушении (кредиты, эскалации). Конкретные цифры задаются договорами и внутренними политиками.

Мониторинг

Метрики доступности и задержки собираются Prometheus; дашборды в Grafana; алерты при приближении к нарушению SLO или при исчерпании error budget.
Отчетность по SLO (burn rate, текущая доступность) — периодически для ревью и принятия решений.

Связанные страницы

Service Catalog / Criticality — приоритет сервисов
Observability / Metrics — сбор метрик
Observability / Alerting — алерты по SLO
Incident Management — реагирование при нарушении

Надежность и масштабируемость Планирование мощностей

На странице

SLO (внутренние цели) SLA (обязательства) Мониторинг Связанные страницы