Настройка алертов и уведомлений при отклонении метрик или срабатывании условий.
Принципы
- Алерты должны быть действенными — срабатывать при реальных проблемах, с минимальным шумом (избегать flapping).
- Пороги и условия задаются по SLO сервисов (доступность, задержка, ошибки); см. SLA/SLO.
- У каждого алерта — runbook или ссылка на документацию: что проверить, что делать, когда эскалировать.
Цепочка уведомлений
- Канал инцидентов — уведомление в чат (Slack и т.п.) для координации.
- On-call — критичные алерты дублируются в систему вызова (PagerDuty, Opsgenie); срабатывает ротация дежурных по Escalation Policy.
- Тикет — при необходимости автоматическое создание тикета инцидента для трекинга и постмортема.
Примеры условий
- Сервис недоступен (health check failed).
- Задержка p99 выше порога.
- Доля ошибок выше порога.
- Kafka consumer lag растет выше порога.
- Диск/память на узле выше порога.
Детальные пороги задаются в конфигурации Alertmanager и Grafana.
Связанные страницы
- Observability — обзор
- Metrics — метрики
- Incident Management — процесс инцидентов
- Runbooks — процедуры при срабатывании алертов
- On-call — кто реагирует