Ранбуки

Операционные процедуры для типовых сценариев: восстановление сервисов, диагностика, ручные действия.

Назначение

Для каждого сценария (алерт, тип инцидента) рекомендуется:

Identity service не отвечает — проверка пода в Kubernetes, логов, рестарт при необходимости, эскалация если не помогло.
Kafka consumer lag растет — проверка потребителей, партиций, ресурсов; при необходимости масштабирование или рестарт consumer’ов.
Высокая задержка БД — проверка метрик PostgreSQL, активных запросов, индексов; при необходимости оптимизация или эскалация к DBA/владельцу сервиса.
Утечка памяти в сервисе — сбор дампов/метрик, рестарт для быстрого снятия нагрузки, создание тикета на разбор.

Runbooks хранятся в репозитории документации (например, docs/operations/runbooks/) или в общей wiki; ссылки из систем алертинга (Grafana, PagerDuty и т.п.).

Runbooks пересматриваются после инцидентов (постмортем) и при изменении архитектуры или процедур деплоя.

На странице