Распределенная трассировка запросов между сервисами для диагностики задержек и сбоев.
Назначение
- Проследить путь запроса от API Gateway до backend-сервисов и БД; увидеть, на каком участке возникла задержка или ошибка.
- Связать логи и метрики по общему trace_id; упростить разбор инцидентов.
Реализация
- Стандарт: OpenTelemetry; экспорт спанов в backend трейсинга (например, Tempo или Jaeger).
- В сервисах: trace context (trace_id, span_id) передается через gRPC metadata и HTTP-заголовки; в логах добавляется trace_id для корреляции.
- API Gateway: создает или пробрасывает trace context на входящих запросах; дочерние спаны для вызовов к backend.
Использование
- При инциденте: по request_id или trace_id найти полный путь запроса в UI трейсинга и связанные логи.
- Runbook’и могут содержать примеры поиска по trace_id для типовых сценариев.
Связанные страницы
- Observability — обзор
- Logging — связь логов и трейсов
- Backend Overview — инструменты в сервисах (OpenTelemetry)
- Runbooks — диагностика с помощью трейсов