AI-Ops Documentation

Требования и подходы к доступности, отказоустойчивости и масштабированию платформы.

Разделы

Страница	Описание
SLA / SLO	Целевые показатели доступности и задержек
Capacity Planning	Планирование ресурсов и нагрузки
Fault Tolerance	Устойчивость к сбоям, retry, circuit breaker
Backpressure / retries	Обработка перегрузки и повторные попытки
Disaster Recovery	Восстановление после крупных сбоев

Принципы

Критичные сервисы (API Gateway, Identity, Credential) имеют целевые SLO по доступности и задержке; мониторинг и алерты настроены под эти цели.
Масштабирование — горизонтальное (реплики подов); состояние не хранится в приложении, а в БД и кеше.
Сбои внешних зависимостей (БД, Kafka, другой сервис) обрабатываются retry с backoff, circuit breaker при необходимости; деградация по возможностям, а не полный отказ.

Связанные страницы

Operations / Incident Management — реагирование на сбои
Service Catalog / Criticality — приоритет сервисов
Backup & Recovery — восстановление данных

Аудит и логирование SLA / SLO

На странице

Разделы Принципы Связанные страницы