Резервное копирование данных и восстановление после сбоев.
Что бэкапить
- PostgreSQL — дампы или непрерывная архивация WAL (Point-in-Time Recovery); частота и retention по политике (ежедневно, хранение 30 дней и т.д.).
- Конфигурация и секреты — конфигурация кластера, важные ConfigMap/Secrets (с учетом того, что секреты хранятся в Vault); версионирование в Git (GitOps).
- Kafka — при необходимости долгого хранения событий — политика retention и при необходимости экспорт в хранилище; восстановление топиков из реплик.
Восстановление
- RTO (Recovery Time Objective) — целевое время восстановления сервиса; определяет приоритет и способ восстановления (из бэкапа или из реплики).
- RPO (Recovery Point Objective) — допустимая потеря данных (например, последний час); влияет на частоту бэкапов и WAL-архивацию.
- Процедуры восстановления БД и сервисов описаны в runbook’ах; периодически проверяются тестами восстановления.
Ответственность
- Владельцы сервисов и платформы согласовывают RTO/RPO и политики бэкапов.
- Регулярные проверки восстановления из бэкапа — часть операционных процедур.
Связанные страницы
- Infrastructure Overview — компоненты инфраструктуры
- Disaster Recovery — архитектура восстановления
- Runbooks — процедуры восстановления