AI-Ops Documentation

Русский English
  • Главная
  • Карта документации
0. С чего начать
  • Что это за продукт
  • Для кого он
  • Как устроена документация
  • Быстрые ссылки
  • Как начать разработку
  • Как найти нужный сервис
  • К кому идти по вопросам
1. Продукт
Обзор продукта
  • Миссия продукта
  • Ценность для бизнеса
  • Основные сценарии
  • Границы системы
Пользователи и персоны
  • Сегменты пользователей
  • Роли пользователей
  • Основные потребности
Пользовательские сценарии
  • Регистрация / логин
  • Основной пользовательский сценарий
  • Оплата / заказ / действие
  • Поддержка и сценарий восстановления
Функции продукта
Фича: Аутентификация
  • Цель
  • Пользовательская история
  • Бизнес-правила
  • Ограничения
  • Метрики успеха
  • Связанные сервисы
  • Связанные события / данные
  • Фича: Профиль
  • Фича: Организации
  • Фича: Топология
  • Фича: Вычислительные ресурсы
  • Фича: Кластеры
  • Фича: Каталог сервисов
Требования
  • Функциональные требования
  • Нефункциональные требования
  • Требования к производительности
  • Требования к безопасности
  • Конфиденциальность и соответствие
  • Доступность
Метрики
  • Ключевая метрика (North Star)
  • Продуктовые KPI
  • Метрики воронки
  • Метрики качества
  • Метрики экспериментов
2. Домены
Домен: Identity
  • Назначение
  • Основные концепции
  • Сущности
  • Бизнес-правила
  • Сервисы домена
  • Данные домена
  • Связанные фичи
  • Домен: Профиль пользователя
  • Домен: Поиск
  • Домен: Заказы / транзакции
  • Домен: Уведомления
  • Домен: Аналитика
  • Домен: Рекомендации
3. Архитектура
Обзор системы
  • Что входит в систему
  • Что не входит
  • Высокоуровневая диаграмма
C4 Model
  • Контекстная диаграмма
  • Диаграмма контейнеров
  • Диаграмма компонентов
  • Диаграмма развёртывания
Интеграционная архитектура
  • Внешние системы
  • Интеграции API
  • Webhooks
  • Сторонние провайдеры
Потоки данных
  • Онлайн-поток данных
  • Пакетный поток данных
  • Поток событий
  • Владение данными
Архитектура безопасности
  • Аутентификация
  • Авторизация
  • Управление секретами
  • Шифрование
  • Аудит и логирование
Надежность и масштабируемость
  • SLA / SLO
  • Планирование мощностей
  • Отказоустойчивость
  • Обратное давление и повторы
  • Восстановление после сбоев
Архитектурные принципы
  • Границы доменов
  • Принципы проектирования API
  • Принципы проектирования событий
  • Принципы контрактов данных
  • Диаграмма: auth микросервисы
Control plane
  • Архитектура компонентов (control plane)
  • Доменная модель v0
  • Протокол v0 (control plane)
  • Примеры (control plane)
Сервисы (control plane)
Сервис control plane
  • API
  • Модель данных
  • События
  • Модули
  • Операции
Сервис execution plane
  • API
  • Модель данных
  • События
  • Модули
  • Операции
Сервис resource catalog
  • API
  • Модель данных
  • События
  • Модули
  • Операции
4. Инженерия
Сервисы
Каталог сервисов
  • Все сервисы списком
  • Владельцы
  • Критичность
  • Уровень / домен / статус
  • Сервис аутентификации
  • Сервис аккаунтов
  • Облачный сервис
  • Сервис учётных данных
  • Herald
  • Сервис идентификации
  • API Gateway
  • Сервис токенов
Фронтенд
  • Обзор фронтенда
  • Структура приложения
  • Routing (фронтенд)
  • State management (фронтенд)
  • Design system (фронтенд)
  • UI components (фронтенд)
  • API контракты фронтенда
  • Обработка ошибок (фронтенд)
  • Performance (фронтенд)
  • Feature flags (фронтенд)
  • Тестирование фронтенда
Бэкенд
  • Обзор бэкенда
  • Паттерны сервисов
  • Рекомендации по API
  • Событийные паттерны
  • Паттерны доступа к БД
  • Кэширование
  • Асинхронные задачи и воркеры
  • Идемпотентность
  • Обработка ошибок
  • Тестирование бэкенда
Данные
  • Обзор данных
  • Системы-источники
  • Контракты данных
  • Каталог схем событий
  • Хранилище данных
  • Витрины данных
  • ETL / ELT-пайплайны
  • Качество данных
  • Происхождение данных
  • Политики хранения
  • Политики доступа
ML / DS
  • Обзор ML/DS
  • Сценарии (ML)
  • Каталог моделей
  • Feature store
  • Training pipelines
  • Inference pipelines
  • Offline evaluation
  • Online evaluation / A-B
  • Мониторинг (ML)
  • ML runbooks
QA / Качество
  • Стратегия качества
  • Пирамида тестов
  • Тестовые окружения
  • Тестовые данные
  • Ручное тестирование
  • Автоматизированное тестирование
  • Нагрузочное тестирование
  • Тестирование безопасности
  • Критерии приёмки релиза
  • Процесс разбора багов
5. Платформа
Инфраструктура
  • Ansible
  • WireGuard
  • Kubernetes
  • Longhorn
  • Ingress
  • PostgreSQL Cluster
  • Redis
  • Kafka
  • Vault
  • MinIO
  • Authentik
  • Monitoring
  • Logging
  • Tracing
  • Nexus
  • SonarQube
  • GlitchTip
  • GitLab Runner
  • Kubernetes Dashboard
  • OLM
  • Deploy
  • Internal DNS
  • Обзор (инфраструктура)
  • Config generator
  • Пример (инфраструктура)
  • Скрипты (инфраструктура)
Окружения
  • Локальное
  • Stage
  • Pre
  • Продакшен (prod)
  • Tech
  • Облако
  • Объектное хранилище
  • CI/CD
  • Секреты и сертификаты
Наблюдаемость
  • Логирование
  • Метрики
  • Трейсинг
  • Алертинг
  • Резервное копирование и восстановление
6. Разработка
  • Быстрый старт
  • Локальная настройка
  • Карта репозиториев
  • Стандарты кода
  • Git-процесс
  • Стратегия ветвления
  • Руководство по код-ревью
  • Критерии готовности
  • Процесс релиза
  • Флаги фич
  • FAQ разработчика
  • Миграция secure auth
7. Эксплуатация
  • Дежурство
  • Управление инцидентами
  • Уровни критичности
  • Политика эскалации
  • Постмортемы
  • Ранбуки
  • Управление изменениями
  • Непрерывность бизнеса
8. Аналитика
  • План трекинга событий
  • Определения KPI
  • Каталог дашбордов
  • Словарь метрик
  • Эксперименты
  • Стандарты отчётности
9. Управление
  • Решения (ADR)
  • Политика статуса контента
  • Changelog обновлений документации
Безопасность и соответствие
  • Модель угроз
  • Безопасная разработка
  • Управление доступом
  • Конфиденциальность
  • Реагирование на инциденты
Ответственность и владельцы
  • Команды
  • Зоны ответственности команд
  • Владельцы сервисов
  • Владельцы доменов
  • Контакты
Глоссарий
  • Бизнес-термины
  • Продуктовые термины
  • Технические термины
  • Сокращения

Модули

Previous Next

Сервис состоит из dispatcher-а, набора typed runners и artifact pipeline. Все модули используют одну базу execution-plane-service, потому что attempts, leases, statuses и artifact refs являются одним consistency boundary.

flowchart TB API[internal execute API] --> Dispatcher[dispatcher] Dispatcher --> Queue[(attempt queue)] Dispatcher --> Leases[(runner leases)] Dispatcher --> Ansible[ansible-runner] Dispatcher --> K8s[kubernetes-runner] Dispatcher --> Helm[helm-runner] Dispatcher --> Tofu[opentofu-runner] Dispatcher --> SSH[ssh-runner] Dispatcher --> Verify[verification-runner] Ansible --> Artifacts[artifact-worker] K8s --> Artifacts Helm --> Artifacts Tofu --> Artifacts SSH --> Artifacts Verify --> Artifacts

dispatcher

dispatcher - центральный модуль execution lifecycle.

Ответственность:

  • валидирует JobSpec на уровне execution contract;
  • создает execution_attempt;
  • выбирает runner по job.type, runner_requirements и доступности;
  • выдает lease конкретному runner instance;
  • принимает heartbeat и progress events;
  • применяет timeout/cancellation policy;
  • фиксирует final attempt status;
  • доставляет callback в control-plane-service;
  • публикует events в Kafka.

Dispatcher не читает scenario registry и не знает бизнес-семантику node.

ansible-runner

Запускает Ansible playbooks из approved package.

Поддерживаемые операции:

  • ansible.playbook.run;
  • ansible.role.run;
  • ansible.inventory.validate;
  • ansible.check_mode.run.

Входы:

  • package ref;
  • playbook path из allowlist;
  • inventory artifact или generated inventory;
  • variables без secret values;
  • Vault secret refs;
  • target resource bindings.

Выходы:

  • raw Ansible event stream;
  • recap summary;
  • changed/failed host list;
  • generated facts;
  • evidence refs для verified postconditions.

Ограничения:

  • запрет произвольных local scripts вне package allowlist;
  • secret masking в stdout/stderr;
  • обязательный artifact bundle с event stream.

kubernetes-runner

Выполняет Kubernetes API actions.

Поддерживаемые операции:

  • kubernetes.manifest.apply;
  • kubernetes.manifest.delete;
  • kubernetes.wait;
  • kubernetes.rollout.status;
  • kubernetes.resource.patch;
  • kubernetes.resource.read.

Входы:

  • cluster access ref;
  • namespace policy;
  • manifests или artifact refs;
  • field manager;
  • dry-run flag;
  • wait conditions.

Выходы:

  • apply result;
  • object refs;
  • diff summary;
  • wait evidence;
  • Kubernetes events snapshot.

Ограничения:

  • доступ к cluster credentials только через Vault;
  • namespace и cluster scope должны пройти policy check;
  • destructive actions требуют явного флага в JobSpec.

helm-runner

Выполняет Helm lifecycle.

Поддерживаемые операции:

  • helm.install;
  • helm.upgrade;
  • helm.rollback;
  • helm.uninstall;
  • helm.test;
  • helm.template.

Входы:

  • chart ref;
  • release name;
  • namespace;
  • values artifact refs;
  • atomic/wait/timeouts;
  • repository credentials refs.

Выходы:

  • release revision;
  • rendered manifests bundle;
  • Helm notes;
  • test result evidence;
  • Kubernetes object refs.

Ограничения:

  • chart source должен быть trusted или marketplace-approved;
  • values с секретами передаются через Vault refs или generated secret refs;
  • rollback выполняется только по explicit command от control-plane.

opentofu-runner

Выполняет IaC workflow для infrastructure resources.

Поддерживаемые операции:

  • opentofu.plan;
  • opentofu.apply;
  • opentofu.destroy;
  • opentofu.output;
  • opentofu.state.inspect.

Входы:

  • module ref;
  • backend config ref;
  • variable artifact refs;
  • provider credential refs;
  • plan artifact ref для apply.

Выходы:

  • plan file ref;
  • plan summary;
  • apply output refs;
  • state version ref;
  • generated resource identifiers.

Ограничения:

  • apply должен ссылаться на approved plan или явный operation policy;
  • state backend credentials только через Vault;
  • destroy требует elevated operation policy.

ssh-runner

Выполняет ограниченные remote commands на nodes.

Поддерживаемые операции:

  • ssh.command.run;
  • ssh.file.upload;
  • ssh.file.download;
  • ssh.service.restart;
  • ssh.system.fact.collect.

Входы:

  • node resource bindings;
  • command template id из allowlist;
  • arguments;
  • connection credential refs;
  • timeout и sudo policy.

Выходы:

  • exit code;
  • stdout/stderr refs;
  • collected facts;
  • service status evidence.

Ограничения:

  • нет generic uncontrolled shell;
  • команды описываются как templates с typed arguments;
  • sudo policy задается явно и audit-able.

verification-runner

Проверяет postconditions и output contracts.

Поддерживаемые операции:

  • verify.http.endpoint;
  • verify.tcp.connect;
  • verify.kubernetes.condition;
  • verify.postgres.ready;
  • verify.resource.capability;
  • verify.custom.probe.

Входы:

  • expected output contract;
  • target refs;
  • probe credentials refs;
  • retry/backoff policy;
  • evidence requirements.

Выходы:

  • evidence refs;
  • probe samples;
  • assertion results;
  • recommended failure category.

Ограничения:

  • verification-runner не исправляет состояние;
  • AI remediation или repair jobs добавляются в plan через PlanPatch в control-plane-service.

artifact-worker

Нормализует все output в единый artifact format.

Ответственность:

  • собирает log chunks;
  • маскирует секреты;
  • строит artifact manifest;
  • пишет bundles в S3/MinIO;
  • сохраняет artifact refs в Postgres;
  • публикует artifact.created;
  • поддерживает retention policy.

Artifact worker не трактует бизнес-результат. Он только гарантирует, что результат можно показать в UI, скачать и использовать как evidence.

События Операции
Меню
Главная Карта документации
0. С чего начать
С чего начать Что это за продукт Для кого он Как устроена документация Быстрые ссылки Как начать разработку Как найти нужный сервис К кому идти по вопросам
1. Продукт
Продукт
2. Домены
Домены Домен: Профиль пользователя Домен: Поиск Домен: Заказы / транзакции Домен: Уведомления Домен: Аналитика Домен: Рекомендации
3. Архитектура
Архитектура Диаграмма: auth микросервисы
4. Инженерия
Инженерия
5. Платформа
Платформа Облако Объектное хранилище CI/CD Секреты и сертификаты Резервное копирование и восстановление
6. Разработка
Разработка Быстрый старт Локальная настройка Карта репозиториев Стандарты кода Git-процесс Стратегия ветвления Руководство по код-ревью Критерии готовности Процесс релиза Флаги фич FAQ разработчика Миграция secure auth
7. Эксплуатация
Эксплуатация Дежурство Управление инцидентами Уровни критичности Политика эскалации Постмортемы Ранбуки Управление изменениями Непрерывность бизнеса
8. Аналитика
Аналитика План трекинга событий Определения KPI Каталог дашбордов Словарь метрик Эксперименты Стандарты отчётности
9. Управление
Управление Решения (ADR) Политика статуса контента Changelog обновлений документации

На странице

dispatcher ansible-runner kubernetes-runner helm-runner opentofu-runner ssh-runner verification-runner artifact-worker