ETL / ELT-пайплайны

Пайплайны загрузки и преобразования данных для аналитики и Data Warehouse (planned / в перспективе).

Назначение

ETL (Extract, Transform, Load): извлечение данных из источников (операционные БД, Kafka), преобразование (очистка, агрегация, обезличивание), загрузка в DWH или витрины.
ELT: загрузка сырых данных в хранилище с последующей трансформацией внутри хранилища (например, dbt, SQL-джобы); удобно при больших объёмах и сложной аналитике.
Выбор ETL vs ELT зависит от объёма, сложности преобразований и возможностей целевой системы.

Kafka: события identity.user.events, credential.password.events и др. — консьюмеры пишут в staging или напрямую в DWH; см. Event Schema Catalog.
Операционные БД: выгрузка через snapshot или CDC (Change Data Capture) по расписанию; только необходимые таблицы и поля; доступ по политикам, без нагрузки на prod в пиковые часы.
Метрики и логи: экспорт из Prometheus/Loki в долгосрочное хранилище или аналитическую БД при необходимости.
Подробнее: Source Systems.

Идемпотентность и повторяемость: пайплайны можно перезапускать без дублирования и порчи данных (upsert по ключу, партиционирование по дате).
Мониторинг: успешность запусков, объём обработанных записей, задержка (latency); алерты при сбоях и отставании.
Безопасность и compliance: учётные данные к источникам — в Vault; минимизация PII в аналитических слоях; retention по Retention policies.

Оркестрация: Airflow, Prefect, или пайплайны в CI по расписанию.
Трансформации: SQL в DWH, dbt, или код (Python) для сложной логики.
Консьюмеры Kafka: приложение на базе aiokafka или Kafka Connect для записи в S3/DWH.

Конкретный стек определяется при внедрении аналитического слоя; документация обновляется в разделе Data.

На странице