Метрики: Victoria Metrics, Prometheus, Grafana, Alertmanager. Папка: infra/k8s/monitoring/.
Описание
Victoria Metrics — TSDB для долгосрочного хранения (90 дней). Prometheus — сбор метрик (ServiceMonitor/PodMonitor). Grafana — дашборды. Alertmanager — алерты с Telegram.
Возможности
- Централизованный сбор метрик
- Remote write Prometheus → Victoria Metrics
- Алерты для кластера, Postgres, Kafka и др.
- Pre-installed Kubernetes dashboards
Конфигурация
- Namespace:
tech-monitoring - Victoria Metrics: 45Gi PVC, 90 дней retention.
- Node Exporter: Запущен на всех 10 нодах кластера (включая control-plane) с приоритетом
system-node-criticalи минимальными ресурсами (30Mi RAM) для предотвращения эвикции. - Grafana: admin/admin (сменить при первом входе).
Оптимизация Prometheus
Для снижения потребления памяти Prometheus (high cardinality) настроено переопределение метрик (metricRelabelings) для Longhorn: отбрасываются тяжелые гистограммы задержек (longhorn_rest_client_..._bucket).
Базовый порядок установки
1 2 3 4 5 6 | |
Можно использовать и единый запуск: make monitoring-install-all.
Команды
| Команда | Описание |
|---|---|
make monitoring-install-all |
Полная установка monitoring-стека |
make monitoring-install-prometheus |
Prometheus stack (включая CRD) |
make monitoring-install-victoria-metrics |
VictoriaMetrics |
make monitoring-install-grafana |
Grafana |
make monitoring-create-telegram-secret |
Telegram секрет для Alertmanager |
make monitoring-status |
Проверить все компоненты |
make monitoring-port-forward-grafana |
Локальный доступ к Grafana |
Связанные страницы
- Kubernetes
- Ingress — grafana.internal.ai-ops.tech
- infra/k8s/monitoring/README.md
- infra/k8s/monitoring/Makefile