Резервное копирование и восстановление

Резервное копирование данных и восстановление после сбоев.

Что бэкапить

PostgreSQL — дампы или непрерывная архивация WAL (Point-in-Time Recovery); частота и retention по политике (ежедневно, хранение 30 дней и т.д.).
Конфигурация и секреты — конфигурация кластера, важные ConfigMap/Secrets (с учетом того, что секреты хранятся в Vault); версионирование в Git (GitOps).
Kafka — при необходимости долгого хранения событий — политика retention и при необходимости экспорт в хранилище; восстановление топиков из реплик.

RTO (Recovery Time Objective) — целевое время восстановления сервиса; определяет приоритет и способ восстановления (из бэкапа или из реплики).
RPO (Recovery Point Objective) — допустимая потеря данных (например, последний час); влияет на частоту бэкапов и WAL-архивацию.
Процедуры восстановления БД и сервисов описаны в runbook’ах; периодически проверяются тестами восстановления.

На странице