Ключевые метрики, собираемые с сервисов и инфраструктуры для мониторинга и алертинга.
Источники
- Приложения: Prometheus client (Python: prometheus_client, Go: client_golang) — RPS, задержки (histogram), ошибки, активные запросы, метрики бизнес-логики (например, количество созданных пользователей).
- Инфраструктура: Node exporter, PostgreSQL exporter, Redis exporter, Kafka metrics — использование CPU/памяти/диска, соединения с БД, lag потребителей Kafka.
- Сбор: Prometheus или Victoria Metrics scrape targets; хранение с retention по политике.
Типовые метрики сервисов
http_requests_total,http_request_duration_seconds— запросы и задержки.grpc_server_handled_total,grpc_server_handling_seconds— gRPC вызовы.db_connections_active,db_query_duration_seconds— работа с БД.- Кастомные метрики: регистрации, успешные/неуспешные проверки пароля (без PII), размер outbox и т.д.
Дашборды
- Grafana дашборды по сервисам и инфраструктуре; ссылки в Runbooks для быстрого доступа при инцидентах.
- Продуктовые метрики — см. Product / Metrics, Analytics.
Связанные страницы
- Observability — обзор
- Logging — логи
- Alerting — алерты
- Dashboards Catalog — каталог дашбордов