AI-Ops Documentation

Настройка алертов и уведомлений при отклонении метрик или срабатывании условий.

Принципы

Алерты должны быть действенными — срабатывать при реальных проблемах, с минимальным шумом (избегать flapping).
Пороги и условия задаются по SLO сервисов (доступность, задержка, ошибки); см. SLA/SLO.
У каждого алерта — runbook или ссылка на документацию: что проверить, что делать, когда эскалировать.

Цепочка уведомлений

Канал инцидентов — уведомление в чат (Slack и т.п.) для координации.
On-call — критичные алерты дублируются в систему вызова (PagerDuty, Opsgenie); срабатывает ротация дежурных по Escalation Policy.
Тикет — при необходимости автоматическое создание тикета инцидента для трекинга и постмортема.

Примеры условий

Сервис недоступен (health check failed).
Задержка p99 выше порога.
Доля ошибок выше порога.
Kafka consumer lag растет выше порога.
Диск/память на узле выше порога.

Детальные пороги задаются в конфигурации Alertmanager и Grafana.

Связанные страницы

Observability — обзор
Metrics — метрики
Incident Management — процесс инцидентов
Runbooks — процедуры при срабатывании алертов
On-call — кто реагирует

Трейсинг Резервное копирование и восстановление

На странице

Принципы Цепочка уведомлений Примеры условий Связанные страницы