Требования и подходы к доступности, отказоустойчивости и масштабированию платформы.
Разделы
| Страница | Описание |
|---|---|
| SLA / SLO | Целевые показатели доступности и задержек |
| Capacity Planning | Планирование ресурсов и нагрузки |
| Fault Tolerance | Устойчивость к сбоям, retry, circuit breaker |
| Backpressure / retries | Обработка перегрузки и повторные попытки |
| Disaster Recovery | Восстановление после крупных сбоев |
Принципы
- Критичные сервисы (API Gateway, Identity, Credential) имеют целевые SLO по доступности и задержке; мониторинг и алерты настроены под эти цели.
- Масштабирование — горизонтальное (реплики подов); состояние не хранится в приложении, а в БД и кеше.
- Сбои внешних зависимостей (БД, Kafka, другой сервис) обрабатываются retry с backoff, circuit breaker при необходимости; деградация по возможностям, а не полный отказ.
Связанные страницы
- Operations / Incident Management — реагирование на сбои
- Service Catalog / Criticality — приоритет сервисов
- Backup & Recovery — восстановление данных