RAG: как создать корпоративного ИИ-ассистента на своих документах
Что такое RAG, какие компоненты нужны и как за 4–6 недель запустить бота поверх своих документов.
RAG — архитектура, при которой LLM отвечает не из «своей головы», а на основе подгружаемых при каждом запросе фрагментов ваших документов. Это снижает галлюцинации и позволяет использовать актуальную корпоративную информацию.
Компоненты RAG
- Пайплайн ingestion: парсинг PDF/DOCX/HTML, очистка, chunking (200–800 токенов).
- Эмбеддинги: multilingual-e5-large, bge-m3, text-embedding-3-large — выбираются по качеству на русском.
- Векторная БД: Qdrant (Россия, open-source), Weaviate, pgvector (если используется PostgreSQL).
- LLM: YandexGPT, GigaChat, Claude (через proxy), Llama 3 on-prem.
- Reranker: cross-encoder (bge-reranker) — поднимает точность top-k на 15–25%.
- Оркестратор: собственный слой на FastAPI / Node, LangChain для прототипа.
Типовые ошибки
Плохой chunking (слишком большие куски — теряется смысл, слишком малые — нет контекста). Отсутствие метаданных (источник, раздел, дата). Отсутствие grounding — ответ без ссылок на документы-источники.
Оценка качества
Создаём тестовый датасет из 100–300 Q&A, размеченных экспертом. Метрики: recall@k (доля правильных источников в top-k), faithfulness (ответ не выходит за контекст), answer relevance. Мониторим онлайн через RAGAS или собственный харнесс.
Сроки и стоимость
- Неделя 1–2: Discovery, выбор LLM, тестовый dataset.
- Неделя 3–4: MVP — ingestion + базовый RAG + chat-UI.
- Неделя 5: Тюнинг (chunking, reranker), интеграция c SSO.
- Неделя 6: Приёмка, запуск в prod.
Частые вопросы
Куда деваются мои данные?+
Если используете on-prem модель — никуда не уходят. При внешних API (YandexGPT, GigaChat) — см. SLA провайдера. В enterprise-контрактах можно подписать DPA с запретом использования для обучения.
Можно ли без облака?+
Да. Llama 3 70B / Qwen 32B + Qdrant + все компоненты — на собственных серверах (2×A100 или 4×L40S для старта).
Сколько документов тянет RAG?+
От сотен до миллионов. Qdrant масштабируется до 100M+ векторов. Главный вопрос — не объём, а качество метаданных и chunking.
Нужна помощь по этой теме?
Обсудим задачу и предложим план за 24 часа. Работаем с компаниями из России и СНГ с 1999 года.
Похожие материалы
7 способов интеграции ИИ в бизнес-процессы с измеримым ROI
Семь направлений, где внедрение ИИ за 2–8 недель даёт возврат инвестиций меньше чем за полгода. С расчётами и рисками.
ЧитатьИИ-интеграции под ключ от 1IT: из чего состоит проект
Состав и структура проекта по интеграции ИИ под ключ — от Discovery до промышленного запуска с SLA.
Читать