Первый · ИТ · Альянс
Перейти к основному содержимому
К списку материалов
ИИ
2 апреля 2026 г. 9 мин чтения

MLOps на собственных серверах: стек для on-prem AI в РФ

Когда облако невозможно — поднимаем AI-стек на своих серверах. Готовая референсная архитектура 1IT для российских компаний.

MLOps on-prem Kubernetes vLLM

Финансовый сектор, медицина, госкомпании часто не могут отправлять данные в облачные LLM. Решение — on-prem развёртывание с локальными моделями уровня Qwen 2.5-72B, Saiga, GigaChat MAX (приватный контур). 1IT собирает MLOps-стек на отечественном железе и Astra Linux.

Базовая архитектура

  • Kubernetes (Deckhouse, Astra K8s) для оркестрации.
  • GPU-ноды с NVIDIA H100/A100 или совместимым железом.
  • vLLM или TensorRT-LLM для инференса с continuous batching.
  • MLflow для трекинга экспериментов и реестра моделей.
  • Prometheus + Grafana для мониторинга.

Серверная подсистема

Минимальная конфигурация для пилота — 2 ноды по 8x H100 80GB или 8x A100 80GB. Для модели 70B параметров в FP8 нужна 1 нода, для FP16 — 2 ноды. Сеть InfiniBand или RoCE для обмена тензорами при tensor parallelism.

CI/CD моделей

  1. Эксперимент: трекинг через MLflow с версионированием датасета.
  2. Валидация: автотесты на golden set + замер бенчмарков.
  3. Регистрация: модель в реестре с тегами и метаданными.
  4. Канареечный деплой: 5% трафика на новую модель.
  5. Полный rollout после прохождения SLO.
  6. Откат за 30 секунд при деградации.

Мониторинг качества

Помимо технических метрик (latency, throughput, GPU utilization) обязателен мониторинг качества: drift по эмбеддингам, faithfulness ответов, доля сработок safety-фильтров. Деградация качества — повод для перетренировки или fine-tuning.

Частые вопросы

Какие LLM можно развернуть on-prem в РФ?+

Открытые: Qwen 2.5, Llama 3.1, Saiga, T-pro. Коммерческие: GigaChat MAX в приватном контуре, YandexGPT через Yandex Cloud Private.

Сколько времени на развёртывание?+

От первого сервера до продакшен-готовности — 6–12 недель. 1IT проводит пилот, нагрузочные тесты, передачу в эксплуатацию с регламентами.

Что с импортным железом и санкциями?+

Доступ к H100 ограничен, но решается параллельным импортом или альтернативами (китайские GPU, отечественные ускорители на горизонте). Обсуждаем варианты под бюджет.

Нужна помощь по этой теме?

Обсудим задачу и предложим план за 24 часа. Работаем с компаниями из России и СНГ с 1999 года.