Пайплайны загрузки и преобразования данных для аналитики и Data Warehouse (planned / в перспективе).
Назначение
- ETL (Extract, Transform, Load): извлечение данных из источников (операционные БД, Kafka), преобразование (очистка, агрегация, обезличивание), загрузка в DWH или витрины.
- ELT: загрузка сырых данных в хранилище с последующей трансформацией внутри хранилища (например, dbt, SQL-джобы); удобно при больших объёмах и сложной аналитике.
- Выбор ETL vs ELT зависит от объёма, сложности преобразований и возможностей целевой системы.
Источники
- Kafka: события identity.user.events, credential.password.events и др. — консьюмеры пишут в staging или напрямую в DWH; см. Event Schema Catalog.
- Операционные БД: выгрузка через snapshot или CDC (Change Data Capture) по расписанию; только необходимые таблицы и поля; доступ по политикам, без нагрузки на prod в пиковые часы.
- Метрики и логи: экспорт из Prometheus/Loki в долгосрочное хранилище или аналитическую БД при необходимости.
- Подробнее: Source Systems.
Принципы
- Идемпотентность и повторяемость: пайплайны можно перезапускать без дублирования и порчи данных (upsert по ключу, партиционирование по дате).
- Мониторинг: успешность запусков, объём обработанных записей, задержка (latency); алерты при сбоях и отставании.
- Безопасность и compliance: учётные данные к источникам — в Vault; минимизация PII в аналитических слоях; retention по Retention policies.
Инструменты (возможные)
- Оркестрация: Airflow, Prefect, или пайплайны в CI по расписанию.
- Трансформации: SQL в DWH, dbt, или код (Python) для сложной логики.
- Консьюмеры Kafka: приложение на базе aiokafka или Kafka Connect для записи в S3/DWH.
Конкретный стек определяется при внедрении аналитического слоя; документация обновляется в разделе Data.
Связанные страницы
- Data Warehouse — целевое хранилище
- Data Marts — витрины поверх DWH
- Source Systems — источники данных
- Event Schema Catalog — схемы событий Kafka
- Lineage — прослеживание потоков данных
- Data Quality — качество данных в пайплайнах