Обеспечение непрерывности работы платформы при сбоях и катастрофах.
Цели
- Минимизировать простои и потерю данных в рамках заданных RTO и RPO.
- Иметь документированные процедуры восстановления и ответственных за их выполнение.
Компоненты
- Резервное копирование — см. Backup & Recovery: регулярные бэкапы БД и критичной конфигурации; проверка восстановления.
- Disaster Recovery — см. Disaster Recovery: восстановление из бэкапов, переключение на резервный регион/кластер при наличии.
- Инциденты — быстрое реагирование по Incident Management и runbook’ам снижает время простоя.
- Коммуникация — при крупных сбоях информирование стейкхолдеров и пользователей по согласованным каналам.
Роли
- Владельцы сервисов и платформы определяют RTO/RPO и приоритеты восстановления.
- On-call и SRE выполняют процедуры; при необходимости привлекаются архитекторы и руководство.
Связанные страницы
- Backup & Recovery — бэкапы и восстановление
- Disaster Recovery — архитектура DR
- Incident Management — реагирование на сбои
- Runbooks — процедуры восстановления