Прослеживание происхождения и движения данных: от источников до потребителей и витрин.
Назначение
- Понимание, откуда взялись данные в отчёте или витрине; какие преобразования применялись; кто потребители.
- Поддержка изменений (impact analysis): при изменении схемы или отключении источника видно, какие пайплайны и дашборды затронуты.
- Соответствие требованиям по данным (compliance, аудит): возможность показать цепочку от сырых данных до агрегата.
Уровни
- Операционные данные: владелец данных — сервис (Database per Service); обмен через API и события документирован в Source Systems, Event Schema Catalog. Lineage на уровне «сервис A публикует топик X, потребляют сервисы B, C».
- Аналитические данные (при наличии DWH): источники (Kafka, БД, логи) → пайплайны ETL/ELT → таблицы DWH → витрины → дашборды/отчёты. Фиксация в документации, в метаданных пайплайнов (Airflow/dbt) или в отдельном каталоге lineage при масштабировании аналитики.
Реализация
- Документация: описание потоков в разделах Data Flow, Event Flow; владельцы топиков и потребители — в Event Schema Catalog.
- В коде и пайплайнах: именование топиков, таблиц и джобов по единым правилам; комментарии и README в репозиториях пайплайнов с указанием источников и целей.
- Автоматизированный lineage (опционально): при использовании dbt, Airflow или аналогов — сбор метаданных о зависимостях; интеграция с каталогом данных при росте аналитики.
Связанные страницы
- Data Overview — обзор потоков данных
- Source Systems — источники
- Event Schema Catalog — события и потребители
- ETL/ELT Pipelines — пайплайны как часть lineage
- Data Marts — витрины как конечные точки
- Data Ownership — владение данными по доменам