Index

Полноценная система мониторинга метрик Kubernetes-кластера с архитектурой: Prometheus Operator (scrape/rules) → remote_write → VictoriaMetrics (TSDB) → Grafana + Alertmanager с Telegram интеграцией.

Описание

VictoriaMetrics - высокопроизводительная TSDB для долгосрочного хранения метрик.

Prometheus - система мониторинга и сбора метрик с поддержкой scraping и alerting.

Grafana - платформа визуализации и аналитики метрик.

Alertmanager - система управления алертами с поддержкой роутинга и группировки.

Возможности

✅ Централизованный сбор метрик (opt-in через annotation prometheus.io/scrape: "true")
✅ Долгосрочное хранение в VictoriaMetrics (90 дней retention)
✅ Prometheus Operator для управления scraping (ServiceMonitor/PodMonitor)
✅ Автоматические алерты для критичных событий кластера
✅ Telegram интеграция для уведомлений
✅ Grafana с pre-installed Kubernetes dashboards
✅ kube-state-metrics для метрик состояния кластера
✅ node-exporter для метрик хостов
✅ Remote write из Prometheus в VictoriaMetrics
✅ Single Binary режим VictoriaMetrics (простота развертывания)

Текущая конфигурация

Namespace: tech-monitoring
VictoriaMetrics: Single mode, 45Gi PVC, 90 дней retention
Prometheus: 2 часа локальный retention, remote_write в VictoriaMetrics, 8Gi PVC
Grafana: 8Gi PVC, admin/admin (изменить при первом входе)
Alertmanager: Telegram интеграция
Storage: Longhorn
Placement: Может размещаться на любых нодах (masters + workers)

Структура проекта

monitoring/
├── charts/                          # Helm values для компонентов
│   ├── victoria-metrics-single/
│   │   └── values.yaml
│   ├── kube-prometheus-stack/
│   │   └── values.yaml
│   └── grafana/
│       └── values.yaml
├── alerts/                          # ✨ Алерты (PrometheusRule)
│   ├── kubernetes-cluster-alerts.yaml
│   ├── monitoring-stack-alerts.yaml
│   └── README.md
├── manifests/                       # Kubernetes манифесты
│   ├── base/                        # Базовые манифесты (namespace, limits, quotas)
│   │   ├── namespace.yaml
│   │   ├── limitrange.yaml
│   │   ├── resourcequota.yaml
│   │   ├── storageclass.yaml
│   │   └── README.md
│   ├── monitors/             # ServiceMonitor и PodMonitor
│   │   ├── examples.yaml
│   │   └── README.md
│   ├── ingress/                     # Ingress для внешнего доступа
│   │   ├── grafana.yaml
│   │   ├── victoriametrics.yaml
│   │   ├── prometheus.yaml
│   │   ├── alertmanager.yaml
│   │   └── README.md
│   └── README.md
├── dashboards/                      # Grafana dashboards (JSON)
│   ├── kubernetes/                  # Kubernetes дашборды
│   ├── monitoring/                  # Мониторинг стека
│   ├── application/                 # Приложения
│   ├── infrastructure/              # Инфраструктура
│   └── README.md
├── scripts/                         # Утилиты
│   ├── create-telegram-secret.sh
│   └── import-dashboards.sh
├── helmfile-victoria-metrics.yaml
├── helmfile-prometheus.yaml
├── helmfile-grafana.yaml
├── Makefile
└── README.md

Организация файлов

alerts/ - все алерты (PrometheusRule), разделенные по категориям: - kubernetes-cluster-alerts.yaml - алерты для Kubernetes кластера - monitoring-stack-alerts.yaml - алерты для мониторинга - Ваши custom алерты можно добавлять сюда

manifests/ - все Kubernetes манифесты разделены по категориям: - base/ - базовые ресурсы (namespace, limits, quotas) - monitors/ - ServiceMonitor и PodMonitor для scraping метрик - ingress/ - Ingress для внешнего доступа

dashboards/ - Grafana dashboards в JSON формате, организованные по типам

charts/ - Helm values для кастомизации компонентов

scripts/ - вспомогательные скрипты для управления

Архитектура

┌────────────────────────────────────────────────────────────────────┐
│  Kubernetes Cluster                                                │
│                                                                    │
│  ┌──────────────────────────────────────────────────────────┐     │
│  │  Application Pods (with annotation)                      │     │
│  │  ├── Backend (prometheus.io/scrape: "true")             │     │
│  │  ├── Frontend (prometheus.io/scrape: "true")            │     │
│  │  └── Other Pod (no annotation - not scraped)            │     │
│  └────────────────┬─────────────────────────────────────────┘     │
│                   │ metrics                                        │
│  ┌────────────────▼─────────────────────────────────────────┐     │
│  │  tech-monitoring namespace                               │     │
│  │                                                           │     │
│  │  ┌──────────────────────────────────────────────┐        │     │
│  │  │  Prometheus (kube-prometheus-stack)          │        │     │
│  │  │  ├── Scrape (ServiceMonitor/PodMonitor)      │        │     │
│  │  │  ├── Rules evaluation                         │        │     │
│  │  │  ├── Local TSDB (2h retention)               │        │     │
│  │  │  └── Remote write → VictoriaMetrics          │        │     │
│  │  └────────────────┬─────────────────────────────┘        │     │
│  │                   │                                        │     │
│  │  ┌────────────────▼─────────────────────────────┐        │     │
│  │  │  Prometheus Operator                          │        │     │
│  │  │  ├── Manage Prometheus CRDs                   │        │     │
│  │  │  ├── ServiceMonitor discovery                 │        │     │
│  │  │  └── PrometheusRule management                │        │     │
│  │  └──────────────────────────────────────────────┘        │     │
│  │                                                           │     │
│  │  ┌──────────────────────────────────────────────┐        │     │
│  │  │  Exporters                                    │        │     │
│  │  │  ├── kube-state-metrics (K8s objects)         │        │     │
│  │  │  ├── node-exporter (host metrics)             │        │     │
│  │  │  └── CoreDNS, etcd, kubelet (system)          │        │     │
│  │  └──────────────────────────────────────────────┘        │     │
│  │                                                           │     │
│  │  ┌──────────────────────────────────────────────┐        │     │
│  │  │  VictoriaMetrics Single                       │        │     │
│  │  │  ├── Long-term TSDB (90d retention)           │        │     │
│  │  │  ├── 45Gi PVC (Longhorn)                      │        │     │
│  │  │  └── Prometheus-compatible query API          │        │     │
│  │  └────────────────┬─────────────────────────────┘        │     │
│  │                   │ query                                 │     │
│  │  ┌────────────────▼─────────────────────────────┐        │     │
│  │  │  Grafana                                      │        │     │
│  │  │  ├── DataSource: VictoriaMetrics              │        │     │
│  │  │  ├── Pre-installed Kubernetes dashboards      │        │     │
│  │  │  └── 8Gi PVC (Longhorn)                      │        │     │
│  │  └──────────────────────────────────────────────┘        │     │
│  │                                                           │     │
│  │  ┌──────────────────────────────────────────────┐        │     │
│  │  │  Alertmanager                                 │        │     │
│  │  │  ├── Receive alerts from Prometheus           │        │     │
│  │  │  ├── Group and route alerts                   │        │     │
│  │  │  └── Send to Telegram                         │        │     │
│  │  └────────────────┬─────────────────────────────┘        │     │
│  └────────────────────┼─────────────────────────────────────┘     │
└────────────────────────┼───────────────────────────────────────────┘
                         │
                         ▼
            ┌────────────────────────┐
            │  Telegram Bot          │
            │  (Alert notifications) │
            └────────────────────────┘

External Access (via Ingress + Authentik SSO):
  - grafana.internal.ai-ops.tech
  - victoriametrics.internal.ai-ops.tech
  - prometheus.internal.ai-ops.tech
  - alertmanager.internal.ai-ops.tech

Поток данных

Сбор метрик: Prometheus scrapes метрики через ServiceMonitor/PodMonitor (opt-in)
Обогащение: Kubernetes metadata добавляется автоматически
Локальное хранение: Prometheus хранит метрики локально 2 часа
Remote write: Метрики отправляются в VictoriaMetrics для долгосрочного хранения
Evaluation: Prometheus проверяет rules и генерирует алерты
Алертинг: Alertmanager получает алерты и отправляет в Telegram
Визуализация: Grafana запрашивает метрики из VictoriaMetrics
Хранение: VictoriaMetrics хранит метрики 90 дней

Быстрый старт

Предварительные требования

Longhorn (для persistent storage)
Подготовленные ноды (labels и taints)

1. Подготовка инфраструктуры

# Установка Longhorn (если еще не установлен)
cd infra/k8s
make longhorn-install-all

# Подготовка нод
cd ../.. && make k8s-prepare-nodes

2. Установка Prometheus Stack

cd infra/k8s
make monitoring-install-prometheus

Это установит: - Namespace tech-monitoring - LimitRange и ResourceQuota - StorageClass longhorn-monitoring - Prometheus Operator (устанавливает CRD для ServiceMonitor, PodMonitor, PrometheusRule) - Prometheus с remote_write в VictoriaMetrics - Alertmanager - kube-state-metrics - node-exporter - PrometheusRule с базовыми алертами

Важно: Prometheus должен быть установлен первым, так как он устанавливает CRD (Custom Resource Definitions), которые требуются для VictoriaMetrics (ServiceMonitor).

3. Установка VictoriaMetrics

1	`make monitoring-install-victoria-metrics`

Это установит: - VictoriaMetrics Single через Helm - ServiceMonitor для self-monitoring (требует Prometheus Operator CRD)

4. Создание Telegram secret

1	`make monitoring-create-telegram-secret`

Следуйте инструкциям для создания Telegram бота:

Откройте Telegram и найдите @BotFather
Отправьте /newbot и следуйте инструкциям
Скопируйте bot token (формат: 123456789:ABCdefGHIjklMNOpqrsTUVwxyz)
Добавьте бота в группу
Получите chat ID:
Отправьте сообщение боту в группе
Откройте: https://api.telegram.org/bot<YOUR_BOT_TOKEN>/getUpdates
Найдите "chat":{"id":-1001234567890} в ответе
Используйте отрицательное число для группового чата

5. Установка Grafana

1	`make monitoring-install-grafana`

Это установит Grafana с: - Datasource VictoriaMetrics (по умолчанию) - Datasource Prometheus (дополнительно) - Pre-installed Kubernetes dashboards

6. Применение Ingress

kubectl apply -f monitoring/manifests/ingress/

7. Проверка статуса

1	`make monitoring-status`

Ожидаемый результат: - VictoriaMetrics pod в состоянии Running - Prometheus pod в состоянии Running - Alertmanager pod в состоянии Running - Grafana pod в состоянии Running - kube-state-metrics и node-exporter pods в Running - PVCs в состоянии Bound

8. Доступ к компонентам

Через ingress (с Authentik SSO): - Grafana: https://grafana.internal.ai-ops.tech - VictoriaMetrics: https://victoriametrics.internal.ai-ops.tech - Prometheus: https://prometheus.internal.ai-ops.tech - Alertmanager: https://alertmanager.internal.ai-ops.tech

Через port-forward (локальный доступ):

# Grafana
make monitoring-port-forward-grafana
# http://localhost:3000 (admin/admin)

# VictoriaMetrics
make monitoring-port-forward-vm
# http://localhost:8428

# Prometheus
make monitoring-port-forward-prometheus
# http://localhost:9090

# Alertmanager
make monitoring-port-forward-alertmanager
# http://localhost:9093

Команды

Установка и обновление

make monitoring-install-all                # Полная установка стека
make monitoring-install-victoria-metrics   # Только VictoriaMetrics
make monitoring-install-prometheus         # Только Prometheus stack
make monitoring-install-grafana            # Только Grafana

make monitoring-update-victoria-metrics    # Обновление VictoriaMetrics
make monitoring-update-prometheus          # Обновление Prometheus
make monitoring-update-grafana             # Обновление Grafana

Управление секретами

make monitoring-create-telegram-secret     # Создание Telegram secret (интерактивно)

Мониторинг и отладка

make monitoring-status                     # Статус всего стека
make monitoring-logs-victoria-metrics      # Логи VictoriaMetrics
make monitoring-logs-prometheus            # Логи Prometheus
make monitoring-logs-alertmanager          # Логи Alertmanager
make monitoring-logs-grafana               # Логи Grafana

Доступ к компонентам

make monitoring-port-forward-grafana       # Port-forward Grafana (localhost:3000)
make monitoring-port-forward-vm            # Port-forward VictoriaMetrics (localhost:8428)
make monitoring-port-forward-prometheus    # Port-forward Prometheus (localhost:9090)
make monitoring-port-forward-alertmanager  # Port-forward Alertmanager (localhost:9093)

Тестирование

make monitoring-test-scrape                # Проверка scrape targets
make monitoring-test-remote-write          # Проверка remote_write в VM
make monitoring-test-alerts                # Отправка тестового алерта

Дашборды

make monitoring-import-dashboards          # Показать инструкцию по импорту
# Или напрямую:
bash monitoring/scripts/import-dashboards.sh 7249  # Kubernetes Cluster Monitoring

Удаление

make monitoring-uninstall                  # Удаление стека (УДАЛЯЕТ ДАННЫЕ!)

Справка

make monitoring-help                       # Справка по командам

Конфигурация

VictoriaMetrics Single

Конфигурация в charts/victoria-metrics-single/values.yaml:

Storage: - PVC: 45Gi (Longhorn) - Retention: 90 дней - Storage path: /storage

Resources: - Requests: 1000m CPU, 2Gi RAM - Limits: 2000m CPU, 4Gi RAM

Limits: - Memory: 80% от доступной - Max query duration: 30s - Max concurrent requests: 16 - Max labels per timeseries: 30

ServiceMonitor: - Enabled для self-monitoring - Interval: 30s

Prometheus (kube-prometheus-stack)

Конфигурация в charts/kube-prometheus-stack/values.yaml:

Storage: - PVC: 8Gi (Longhorn) - Local retention: 2 часа - Retention size: 9GB

Resources: - Requests: 500m CPU, 1Gi RAM - Limits: 2000m CPU, 4Gi RAM

Remote Write: - URL: http://vm-victoria-metrics-single-vm.tech-monitoring.svc.cluster.local:8428/api/v1/write - Max samples per send: 10000 - Max shards: 30 - Capacity: 50000

Scraping: - Interval: 30s - Timeout: 10s - Evaluation interval: 30s

Selectors (opt-in approach): - ServiceMonitor: prometheus: monitoring label - PodMonitor: prometheus: monitoring label - PrometheusRule: prometheus: monitoring label

Additional Scrape Configs: - Kubernetes pods с annotation prometheus.io/scrape: "true" - Автоматическое определение порта из prometheus.io/port - Автоматическое определение path из prometheus.io/path

Alertmanager

Конфигурация в charts/kube-prometheus-stack/values.yaml:

Storage: - PVC: 5Gi (Longhorn)

Resources: - Requests: 100m CPU, 128Mi RAM - Limits: 500m CPU, 512Mi RAM

Routing: - Group by: alertname, cluster, service, namespace - Group wait: 10s - Group interval: 10s - Repeat interval: 12h - Receiver: telegram

Telegram Integration: - Secret: alertmanager-telegram-secret - Bot token: из secret bot_token - Chat ID: из secret chat_id - Parse mode: HTML

Message Template:

🔥 ALERT FIRING / ✅ RESOLVED

Alert: {{ .GroupLabels.alertname }}
Cluster: {{ .GroupLabels.cluster }}
Namespace: {{ .GroupLabels.namespace }}
Severity: {{ .CommonLabels.severity }}

Summary: {{ .CommonAnnotations.summary }}
Description: {{ .CommonAnnotations.description }}

Details:
- {{ .Labels.instance }}: {{ .Annotations.message }}

Grafana

Конфигурация в charts/grafana/values.yaml:

Storage: - PVC: 8Gi (Longhorn)

Resources: - Requests: 250m CPU, 512Mi RAM - Limits: 1000m CPU, 1Gi RAM

Credentials: - Admin user: admin - Admin password: admin (изменить при первом входе)

Datasources:

VictoriaMetrics (по умолчанию):
Type: Prometheus
URL: http://vm-victoria-metrics-single-vm.tech-monitoring.svc.cluster.local:8428
Interval: 30s
Prometheus (дополнительно):
Type: Prometheus
URL: http://kube-prometheus-stack-prometheus.tech-monitoring.svc.cluster.local:9090
Interval: 30s

Pre-installed Dashboards:

Dashboard	ID	Description
Kubernetes Cluster Monitoring	7249	Общий мониторинг кластера
Kubernetes Pod Monitoring	6417	Мониторинг подов
Node Exporter Full	1860	Детальные метрики хостов
Prometheus Stats	2	Статистика Prometheus
VictoriaMetrics Stats	10229	Статистика VictoriaMetrics
Alertmanager	9578	Alertmanager dashboard

Plugins: - grafana-piechart-panel - grafana-clock-panel - grafana-simple-json-datasource

Использование

Включение сбора метрик для подов (Opt-in)

По умолчанию метрики не собираются. Для включения сбора метрик добавьте annotation на под:

Через Deployment:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-backend
spec:
  template:
    metadata:
      annotations:
        prometheus.io/scrape: "true"     # Включить сбор метрик
        prometheus.io/port: "9090"       # Порт метрик (default: 9090)
        prometheus.io/path: "/metrics"   # Путь метрик (default: /metrics)
    spec:
      containers:
      - name: backend
        image: my-backend:latest
        ports:
        - name: metrics
          containerPort: 9090

Через kubectl:

kubectl annotate pod <pod-name> prometheus.io/scrape="true"
kubectl annotate deployment <deployment-name> prometheus.io/scrape="true"

ServiceMonitor для Service

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: my-backend
  namespace: tech-monitoring
  labels:
    prometheus: monitoring  # ОБЯЗАТЕЛЬНЫЙ label для discovery
spec:
  selector:
    matchLabels:
      app: my-backend
  namespaceSelector:
    matchNames:
      - default  # Или ваш namespace
  endpoints:
    - port: metrics  # Имя порта в Service
      interval: 30s
      path: /metrics

PodMonitor для Pods

apiVersion: monitoring.coreos.com/v1
kind: PodMonitor
metadata:
  name: my-app
  namespace: tech-monitoring
  labels:
    prometheus: monitoring  # ОБЯЗАТЕЛЬНЫЙ label для discovery
spec:
  selector:
    matchLabels:
      app: my-app
  namespaceSelector:
    matchNames:
      - default
  podMetricsEndpoints:
    - port: metrics
      interval: 30s
      path: /metrics

Проверка scrape targets

# Через port-forward
make monitoring-port-forward-prometheus
# Откройте http://localhost:9090/targets

# Или через kubectl
kubectl -n tech-monitoring port-forward svc/kube-prometheus-stack-prometheus 9090:9090

Алерты

Встроенные алерты

Все алерты определены в manifests/prometheusrule-basic-alerts.yaml:

Node Alerts: - NodeNotReady - нода недоступна (5 min) - NodeMemoryPressure - давление памяти на ноде (5 min) - NodeDiskPressure - давление диска на ноде (5 min)

Pod Alerts: - PodCrashLoopBackOff - под в crash loop (5 min) - PodNotReady - под не готов (10 min)

Storage Alerts: - PVCNearlyFull - PVC заполнен >85% (5 min) - PVCFull - PVC заполнен >95% (1 min)

Kubernetes API Alerts: - KubeAPIDown - Kubernetes API недоступен (5 min) - KubeAPIErrorRate - высокий процент ошибок API >5% (5 min)

etcd Alerts: - etcdDown - etcd недоступен (5 min)

Monitoring Stack Alerts: - PrometheusRemoteWriteFailing - проблемы с remote_write (5 min) - PrometheusRemoteWriteQueueFull - очередь remote_write заполнена (5 min) - PrometheusConfigReloadFailed - ошибка перезагрузки конфигурации (5 min) - AlertmanagerDown - Alertmanager недоступен (5 min) - AlertmanagerConfigReloadFailed - ошибка перезагрузки конфигурации (5 min) - VictoriaMetricsDown - VictoriaMetrics недоступен (5 min)

Добавление custom алертов

Создайте новый PrometheusRule:

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: custom-alerts
  namespace: tech-monitoring
  labels:
    prometheus: monitoring  # ОБЯЗАТЕЛЬНЫЙ label
spec:
  groups:
    - name: custom
      interval: 30s
      rules:
        - alert: HighMemoryUsage
          expr: container_memory_usage_bytes{container!=""} / container_spec_memory_limit_bytes{container!=""} > 0.9
          for: 5m
          labels:
            severity: warning
          annotations:
            summary: "High memory usage in {{ $labels.namespace }}/{{ $labels.pod }}"
            description: "Container {{ $labels.container }} is using {{ $value | humanizePercentage }} of its memory limit"

Применить:

kubectl apply -f custom-alerts.yaml

Тестирование алертов

Для тестирования алертов выполните команду в поде Alertmanager:

# 1. Подключитесь к поду Alertmanager
kubectl -n tech-monitoring exec -it <alertmanager-pod-name> -c alertmanager -- sh

# 2. В поде выполните команду (замените дату на текущую)
wget -qO- --post-data='[{"labels":{"alertname":"TestAlert","severity":"warning","cluster":"ai-ops","namespace":"tech-monitoring","service":"test"},"annotations":{"summary":"Test alert from monitoring stack","description":"This is a test alert to verify Telegram integration","message":"Test alert message"},"startsAt":"2025-12-24T12:00:00.000Z"}]' --header='Content-Type: application/json' http://localhost:9093/api/v2/alerts

Вы должны получить уведомление в Telegram.

Dashboards

Pre-installed Dashboards

При установке Grafana автоматически импортируются следующие дашборды:

Kubernetes Cluster Monitoring (7249)
Общий обзор кластера
CPU, Memory, Network, Disk usage
Pods, Containers, Nodes status
Kubernetes Pod Monitoring (6417)
Детальные метрики подов
Container resources
Pod networking
Node Exporter Full (1860)
Детальные метрики хостов
CPU, Memory, Disk, Network
Filesystem, Load average
Prometheus Stats (2)
Статистика Prometheus
Scrape metrics, TSDB stats
Remote write metrics
VictoriaMetrics Stats (10229)
Статистика VictoriaMetrics
Ingestion rate, Storage size
Query performance
Alertmanager (9578)
Alertmanager dashboard
Active alerts, Silences
Notification stats

Импорт дополнительных дашбордов

Через скрипт:

# Импорт по ID с grafana.com
bash monitoring/scripts/import-dashboards.sh <dashboard_id>

# Примеры:
bash monitoring/scripts/import-dashboards.sh 315   # Kubernetes Cluster Monitoring (via Prometheus)
bash monitoring/scripts/import-dashboards.sh 8588  # Kubernetes Deployment Statefulset Daemonset metrics
bash monitoring/scripts/import-dashboards.sh 12114 # Kubernetes / Networking / Cluster

Через Grafana UI:

Откройте Grafana: https://grafana.internal.ai-ops.tech
Войдите (admin/admin)
Нажмите "+" → "Import"
Введите ID дашборда с grafana.com или загрузите JSON
Выберите datasource: VictoriaMetrics
Нажмите "Import"

Популярные Kubernetes дашборды: - 7249 - Kubernetes Cluster Monitoring - 315 - Kubernetes Cluster Monitoring (via Prometheus) - 1860 - Node Exporter Full - 6417 - Kubernetes Cluster (Prometheus) - 8588 - Kubernetes Deployment Statefulset Daemonset metrics - 10856 - Kubernetes / Views / Pods - 12114 - Kubernetes / Networking / Cluster

Создание custom dashboards

Откройте Grafana
Нажмите "+" → "Dashboard"
Add panel
Выберите datasource: VictoriaMetrics
Напишите PromQL query
Настройте визуализацию
Save dashboard

Пример PromQL queries:

# CPU usage по подам
sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (namespace, pod)

# Memory usage по подам
sum(container_memory_usage_bytes{container!=""}) by (namespace, pod)

# Network traffic
sum(rate(container_network_receive_bytes_total[5m])) by (namespace, pod)

# Pod restarts
sum(kube_pod_container_status_restarts_total) by (namespace, pod)

# PVC usage
kubelet_volume_stats_used_bytes / kubelet_volume_stats_capacity_bytes * 100

Troubleshooting

VictoriaMetrics не запускается

Проблема: Pod в состоянии CrashLoopBackOff или Pending

Решение:

# Проверка логов
make monitoring-logs-victoria-metrics

# Частые причины:
# 1. Недостаточно ресурсов на нодах
kubectl describe pod -n tech-monitoring -l app.kubernetes.io/name=victoria-metrics-single

# 2. PVC не может быть создан (Longhorn не установлен)
kubectl -n tech-monitoring get pvc

# 3. Неверные права доступа
kubectl -n tech-monitoring describe pod <vm-pod-name>

Prometheus не scrapes метрики

Проблема: Targets не появляются в Prometheus

Решение:

# Проверка ServiceMonitor/PodMonitor
kubectl -n tech-monitoring get servicemonitor
kubectl -n tech-monitoring get podmonitor

# ServiceMonitor/PodMonitor должны иметь label "prometheus: monitoring"
kubectl -n tech-monitoring describe servicemonitor <name>

# Проверка подов с annotation
kubectl get pods --all-namespaces -o jsonpath='{range .items[*]}{.metadata.namespace}{"\t"}{.metadata.name}{"\t"}{.metadata.annotations.prometheus\.io/scrape}{"\n"}{end}' | grep true

# Проверка Prometheus targets
make monitoring-port-forward-prometheus
# Откройте http://localhost:9090/targets

Remote write в VictoriaMetrics не работает

Проблема: Метрики не записываются в VictoriaMetrics

Решение:

# Проверка Prometheus logs
make monitoring-logs-prometheus

# Проверка метрик remote write
make monitoring-test-remote-write

# Проверка VictoriaMetrics
make monitoring-port-forward-vm
# Откройте http://localhost:8428/vmui

# Проверка connectivity
kubectl -n tech-monitoring exec -it <prometheus-pod> -c prometheus -- wget -O- http://vm-victoria-metrics-single-vm:8428/health

Alertmanager не отправляет в Telegram

Проблема: Алерты не приходят в Telegram

Решение:

# Проверка secret
kubectl -n tech-monitoring get secret alertmanager-telegram-secret
kubectl -n tech-monitoring describe secret alertmanager-telegram-secret

# Проверка Alertmanager logs
make monitoring-logs-alertmanager

# Проверка Alertmanager config
kubectl -n tech-monitoring get secret alertmanager-kube-prometheus-stack-alertmanager-generated -o yaml

# Перезапуск Alertmanager после обновления secret
# Вариант 1: Попробовать разные label selectors (в зависимости от версии чарта)
kubectl rollout restart statefulset -n tech-monitoring -l app.kubernetes.io/name=alertmanager
kubectl rollout restart statefulset -n tech-monitoring -l app=alertmanager
kubectl rollout restart deployment -n tech-monitoring -l app.kubernetes.io/name=alertmanager

# Вариант 2: Найти Alertmanager ресурс вручную
kubectl get statefulset,deployment -n tech-monitoring | grep alertmanager

# Вариант 3: Использовать найденное имя напрямую (примеры для разных версий)
# Для kube-prometheus-stack < 60.0:
# kubectl rollout restart statefulset -n tech-monitoring alertmanager-kube-prometheus-stack-alertmanager
# Для kube-prometheus-stack >= 60.0:
kubectl rollout restart statefulset -n tech-monitoring kube-prometheus-stack-alertmanager

# Тестовый алерт
make monitoring-test-alerts

Grafana не показывает метрики

Проблема: Дашборды пустые или "No data"

Решение:

# Проверка datasource
# Откройте Grafana → Configuration → Data sources → VictoriaMetrics
# Нажмите "Test" - должен быть "Data source is working"

# Проверка connectivity
kubectl -n tech-monitoring exec -it <grafana-pod> -- wget -O- http://vm-victoria-metrics-single-vm:8428/health

# Проверка метрик в VictoriaMetrics
make monitoring-port-forward-vm
# Откройте http://localhost:8428/vmui
# Выполните query: up

# Проверка Grafana logs
make monitoring-logs-grafana

High cardinality metrics

Проблема: Prometheus медленно работает или падает с "too many series"

Решение:

# Проверка количества series
make monitoring-port-forward-prometheus
# Откройте http://localhost:9090/tsdb-status

# Проверка top metrics
# В Prometheus UI → Graph → выполните:
topk(10, count by (__name__)({__name__!=""}))

# Если слишком много series:
# 1. Не используйте в labels: user_id, request_id, trace_id, session_id
# 2. Используйте только low-cardinality labels: namespace, pod, container, node
# 3. Динамические значения ищите в содержимом метрик, а не в labels

PVC Nearly Full

Проблема: PVC заполнены на >85%

Решение:

# Проверка PVC
kubectl -n tech-monitoring get pvc

# Проверка использования внутри пода
kubectl -n tech-monitoring exec <vm-pod> -- df -h /storage
kubectl -n tech-monitoring exec <prometheus-pod> -c prometheus -- df -h /prometheus

# Решение:
# 1. Увеличить retention period (уменьшить срок хранения)
# 2. Увеличить размер PVC (Longhorn поддерживает volume expansion)
kubectl -n tech-monitoring edit pvc <pvc-name>
# Увеличьте spec.resources.requests.storage

# 3. Проверить, что compaction работает (для VictoriaMetrics)
make monitoring-logs-victoria-metrics | grep compact

Best Practices

Opt-in подход для scraping

Система использует opt-in подход: метрики собираются только с подов/сервисов, у которых явно указана annotation или создан ServiceMonitor/PodMonitor.

Преимущества: - ✅ Безопасность: не собираем лишние метрики - ✅ Экономия ресурсов: меньше метрик → меньше CPU/памяти/хранилища - ✅ Контроль: явно видно, что мониторится - ✅ Низкая cardinality: меньше series в Prometheus/VictoriaMetrics

Рекомендации: - Добавляйте annotation на все важные production сервисы - Используйте для всех пользовательских приложений - Не добавляйте для системных подов (они уже мониторятся через ServiceMonitor) - Можно добавить через Helm values или Kustomize patches

Labels

✅ DO: Используйте low-cardinality labels

{namespace="production", container="api", node="worker-1"}

❌ DON'T: Не используйте high-cardinality labels

# ПЛОХО: pod_id меняется при каждом рестарте
{pod_id="abc123"}

# ПЛОХО: request_id уникален для каждого запроса
{request_id="req-xyz"}

# ПЛОХО: user_id создает миллионы series
{user_id="12345"}

Правило: Если значение label может иметь > 1000 уникальных значений, не используйте его как label.

Queries

✅ DO: Фильтруйте по labels сначала

rate(http_requests_total{namespace="production", service="api"}[5m])

❌ DON'T: Не сканируйте все метрики

rate(http_requests_total[5m])  # Очень медленно!

✅ DO: Используйте разумные временные диапазоны

rate(http_requests_total{namespace="production"}[5m])

❌ DON'T: Не запрашивайте слишком большие диапазоны

rate(http_requests_total{namespace="production"}[7d])  # Очень медленно!

Retention

✅ DO: Настройте retention в соответствии с требованиями

Текущий retention: - Prometheus: 2 часа (короткосрочное хранение) - VictoriaMetrics: 90 дней (долгосрочное хранение)

Для изменения отредактируйте: - Prometheus: charts/kube-prometheus-stack/values.yaml → prometheus.prometheusSpec.retention - VictoriaMetrics: charts/victoria-metrics-single/values.yaml → server.retentionPeriod

✅ DO: Мониторьте использование PVC

kubectl -n tech-monitoring get pvc
kubectl -n tech-monitoring exec <vm-pod> -- df -h /storage

Алертинг

✅ DO: Настройте алерты только для критичных событий

Текущие алерты уже настроены "без шума": - NodeNotReady (5 min) - PodCrashLoopBackOff (5 min) - PVCNearlyFull (85%, 5 min) - KubeAPIDown (5 min)

❌ DON'T: Не создавайте алерты на все подряд

Избегайте: - Алерты на warning события (только critical/error) - Алерты с короткими for: периодами (<5 min) - Алерты на метрики с высокой волатильностью

✅ DO: Группируйте алерты

Alertmanager автоматически группирует алерты по: - alertname - cluster - service - namespace

✅ DO: Используйте severity labels

labels:
  severity: critical  # critical, warning, info

Производительность

✅ DO: Используйте recording rules для часто запрашиваемых queries

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: recording-rules
  namespace: tech-monitoring
  labels:
    prometheus: monitoring
spec:
  groups:
    - name: recording
      interval: 30s
      rules:
        - record: namespace:pod_cpu_usage:sum
          expr: sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (namespace, pod)

✅ DO: Используйте VictoriaMetrics для долгосрочных запросов

VictoriaMetrics оптимизирован для долгосрочного хранения и быстрых запросов.

✅ DO: Ограничивайте количество одновременных queries

Настроено в VictoriaMetrics: - search.maxConcurrentRequests: 16 - search.maxQueryDuration: 30s

Интеграция с другими системами

Loki (Logs)

Если у вас установлен Loki (из папки logging), вы можете добавить его как datasource в Grafana:

# Добавьте в charts/grafana/values.yaml → datasources
- name: Loki
  type: loki
  access: proxy
  url: http://loki-gateway.tech-logging.svc.cluster.local
  jsonData:
    maxLines: 1000

Затем обновите Grafana:

1	`make monitoring-update-grafana`

Tracing (Tempo/Jaeger)

Если планируете добавить трейсинг, добавьте datasource:

- name: Tempo
  type: tempo
  access: proxy
  url: http://tempo.tech-tracing.svc.cluster.local:3100

Application Metrics

Для ваших приложений:

Экспортируйте метрики в формате Prometheus (порт 9090, endpoint /metrics)
Добавьте annotation на Deployment/Pod:

annotations:
  prometheus.io/scrape: "true"
  prometheus.io/port: "9090"
  prometheus.io/path: "/metrics"

Или создайте ServiceMonitor (рекомендуется для production):

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: my-app
  namespace: tech-monitoring
  labels:
    prometheus: monitoring
spec:
  selector:
    matchLabels:
      app: my-app
  endpoints:
    - port: metrics
      interval: 30s

Дополнительные ресурсы

← Назад к главной документации

На странице

Оглавление Описание Возможности Текущая конфигурация Структура проекта Организация файлов Архитектура Поток данных Быстрый старт Предварительные требования 1. Подготовка инфраструктуры 2. Установка Prometheus Stack 3. Установка VictoriaMetrics 4. Создание Telegram secret 5. Установка Grafana 6. Применение Ingress 7. Проверка статуса 8. Доступ к компонентам Команды Установка и обновление Управление секретами Мониторинг и отладка Доступ к компонентам Тестирование Дашборды Удаление Справка Конфигурация VictoriaMetrics Single Prometheus (kube-prometheus-stack) Alertmanager Grafana Использование Включение сбора метрик для подов (Opt-in) ServiceMonitor для Service PodMonitor для Pods Проверка scrape targets Алерты Встроенные алерты Добавление custom алертов Тестирование алертов Dashboards Pre-installed Dashboards Импорт дополнительных дашбордов Создание custom dashboards Troubleshooting VictoriaMetrics не запускается Prometheus не scrapes метрики Remote write в VictoriaMetrics не работает Alertmanager не отправляет в Telegram Grafana не показывает метрики High cardinality metrics PVC Nearly Full Best Practices Opt-in подход для scraping Labels Queries Retention Алертинг Производительность Интеграция с другими системами Loki (Logs) Tracing (Tempo/Jaeger) Application Metrics Дополнительные ресурсы