Непрерывность бизнеса

Обеспечение непрерывности работы платформы при сбоях и катастрофах.

Цели

Минимизировать простои и потерю данных в рамках заданных RTO и RPO.
Иметь документированные процедуры восстановления и ответственных за их выполнение.

Резервное копирование — см. Backup & Recovery: регулярные бэкапы БД и критичной конфигурации; проверка восстановления.
Disaster Recovery — см. Disaster Recovery: восстановление из бэкапов, переключение на резервный регион/кластер при наличии.
Инциденты — быстрое реагирование по Incident Management и runbook’ам снижает время простоя.
Коммуникация — при крупных сбоях информирование стейкхолдеров и пользователей по согласованным каналам.

Владельцы сервисов и платформы определяют RTO/RPO и приоритеты восстановления.
On-call и SRE выполняют процедуры; при необходимости привлекаются архитекторы и руководство.

На странице

Цели Компоненты Роли Связанные страницы