MLOps на собственных серверах: стек для on-prem AI в РФ
Когда облако невозможно — поднимаем AI-стек на своих серверах. Готовая референсная архитектура 1IT для российских компаний.
Финансовый сектор, медицина, госкомпании часто не могут отправлять данные в облачные LLM. Решение — on-prem развёртывание с локальными моделями уровня Qwen 2.5-72B, Saiga, GigaChat MAX (приватный контур). 1IT собирает MLOps-стек на отечественном железе и Astra Linux.
Базовая архитектура
- Kubernetes (Deckhouse, Astra K8s) для оркестрации.
- GPU-ноды с NVIDIA H100/A100 или совместимым железом.
- vLLM или TensorRT-LLM для инференса с continuous batching.
- MLflow для трекинга экспериментов и реестра моделей.
- Prometheus + Grafana для мониторинга.
Серверная подсистема
Минимальная конфигурация для пилота — 2 ноды по 8x H100 80GB или 8x A100 80GB. Для модели 70B параметров в FP8 нужна 1 нода, для FP16 — 2 ноды. Сеть InfiniBand или RoCE для обмена тензорами при tensor parallelism.
CI/CD моделей
- Эксперимент: трекинг через MLflow с версионированием датасета.
- Валидация: автотесты на golden set + замер бенчмарков.
- Регистрация: модель в реестре с тегами и метаданными.
- Канареечный деплой: 5% трафика на новую модель.
- Полный rollout после прохождения SLO.
- Откат за 30 секунд при деградации.
Мониторинг качества
Помимо технических метрик (latency, throughput, GPU utilization) обязателен мониторинг качества: drift по эмбеддингам, faithfulness ответов, доля сработок safety-фильтров. Деградация качества — повод для перетренировки или fine-tuning.
Частые вопросы
Какие LLM можно развернуть on-prem в РФ?+
Открытые: Qwen 2.5, Llama 3.1, Saiga, T-pro. Коммерческие: GigaChat MAX в приватном контуре, YandexGPT через Yandex Cloud Private.
Сколько времени на развёртывание?+
От первого сервера до продакшен-готовности — 6–12 недель. 1IT проводит пилот, нагрузочные тесты, передачу в эксплуатацию с регламентами.
Что с импортным железом и санкциями?+
Доступ к H100 ограничен, но решается параллельным импортом или альтернативами (китайские GPU, отечественные ускорители на горизонте). Обсуждаем варианты под бюджет.
Нужна помощь по этой теме?
Обсудим задачу и предложим план за 24 часа. Работаем с компаниями из России и СНГ с 1999 года.
Похожие материалы
RAG на YandexGPT: корпоративный поиск со ссылками на источники
RAG превращает LLM из «галлюцинатора» в надёжного помощника. Как 1IT строит RAG на YandexGPT с замером качества.
ЧитатьБезопасность LLM в корпоративных проектах: чек-лист 1IT
LLM в продакшене — новый класс уязвимостей. Что проверять перед запуском и как защититься от prompt injection и утечек.
ЧитатьGigaChat в корпоративных процессах: 5 рабочих сценариев 2026
GigaChat вышел из стадии экспериментов в продакшен. Какие пять сценариев дают окупаемость в первые 3–6 месяцев.
Читать