Требования и практики обеспечения качества данных в платформе AIOps.
Области качества
- Операционные данные (сервисы): корректность и консистентность в рамках транзакций; валидация на границах API (Pydantic, proto); уникальность и ограничения на уровне БД (unique, not null, FK в пределах сервиса).
- События (Kafka): соответствие схеме; наличие обязательных полей (event_id, event_type, occurred_at, payload); идемпотентность потребления по event_id.
- Аналитические данные (DWH, витрины): полнота загрузок, отсутствие дубликатов при повторных прогонах; проверки на целостность (counts, checksums) при ETL/ELT; см. ETL/ELT Pipelines.
Практики
- Валидация на входе: все входящие запросы и сообщения проверяются по контракту; невалидные отклоняются с понятной ошибкой; не сохранять «мусор» в БД.
- Мониторинг: метрики по доле ошибок валидации, по сбоям консьюмеров, по отставанию пайплайнов; алерты при деградации качества (например, рост числа failed событий).
- Очистка и дедупликация: в пайплайнах — явные правила дедупликации (по event_id, по бизнес-ключу); при необходимости quarantine для подозрительных записей и ручной разбор.
- Документирование: схемы и правила качества для ключевых сущностей и потоков описаны в Event Schema Catalog, Data Contracts; при появлении DWH — в описании витрин.
Связанные страницы
- Data Contracts — контракты и валидация
- Event Schema Catalog — схемы событий
- ETL/ELT Pipelines — качество в пайплайнах
- Source Systems — источники и ответственность за данные
- Backend / Error handling — обработка ошибок валидации