Первый · ИТ · Альянс
Перейти к основному содержимому
К списку материалов
ИИ
22 марта 2026 г. 8 мин чтения

RAG: как создать корпоративного ИИ-ассистента на своих документах

Что такое RAG, какие компоненты нужны и как за 4–6 недель запустить бота поверх своих документов.

RAG LLM Qdrant векторный поиск

RAG — архитектура, при которой LLM отвечает не из «своей головы», а на основе подгружаемых при каждом запросе фрагментов ваших документов. Это снижает галлюцинации и позволяет использовать актуальную корпоративную информацию.

Компоненты RAG

  • Пайплайн ingestion: парсинг PDF/DOCX/HTML, очистка, chunking (200–800 токенов).
  • Эмбеддинги: multilingual-e5-large, bge-m3, text-embedding-3-large — выбираются по качеству на русском.
  • Векторная БД: Qdrant (Россия, open-source), Weaviate, pgvector (если используется PostgreSQL).
  • LLM: YandexGPT, GigaChat, Claude (через proxy), Llama 3 on-prem.
  • Reranker: cross-encoder (bge-reranker) — поднимает точность top-k на 15–25%.
  • Оркестратор: собственный слой на FastAPI / Node, LangChain для прототипа.

Типовые ошибки

Плохой chunking (слишком большие куски — теряется смысл, слишком малые — нет контекста). Отсутствие метаданных (источник, раздел, дата). Отсутствие grounding — ответ без ссылок на документы-источники.

Оценка качества

Создаём тестовый датасет из 100–300 Q&A, размеченных экспертом. Метрики: recall@k (доля правильных источников в top-k), faithfulness (ответ не выходит за контекст), answer relevance. Мониторим онлайн через RAGAS или собственный харнесс.

Сроки и стоимость

  1. Неделя 1–2: Discovery, выбор LLM, тестовый dataset.
  2. Неделя 3–4: MVP — ingestion + базовый RAG + chat-UI.
  3. Неделя 5: Тюнинг (chunking, reranker), интеграция c SSO.
  4. Неделя 6: Приёмка, запуск в prod.

Частые вопросы

Куда деваются мои данные?+

Если используете on-prem модель — никуда не уходят. При внешних API (YandexGPT, GigaChat) — см. SLA провайдера. В enterprise-контрактах можно подписать DPA с запретом использования для обучения.

Можно ли без облака?+

Да. Llama 3 70B / Qwen 32B + Qdrant + все компоненты — на собственных серверах (2×A100 или 4×L40S для старта).

Сколько документов тянет RAG?+

От сотен до миллионов. Qdrant масштабируется до 100M+ векторов. Главный вопрос — не объём, а качество метаданных и chunking.

Нужна помощь по этой теме?

Обсудим задачу и предложим план за 24 часа. Работаем с компаниями из России и СНГ с 1999 года.