Исследователи разработали новую методологию оценки работы ИИ-ассистентов на русском языке

24.03.2026 |

Исследователи из Сбера (команда SberAI), MWS AI (входит в МТС Web Services) и ведущих российских университетов представили первую открытую динамическую (с постоянно обновляющимся корпусом данных) методологию для тестирования русскоязычных систем генеративного искусственного интеллекта, дополненных поиском (RAG-системы). Такие системы лежат в основе большинства современных ИИ-ассистентов с агентными возможностями. Исследование принято на EACL 2026 — одну из крупнейших международных конференций в области компьютерной лингвистики, которая проходит в Рабате (Марокко) с 24 по 29 марта 2026 года.

RAG-системы объединяют большие языковые модели (LLM) с корпоративными базами знаний и информационными системами, чтобы нейросети могли отвечать на запросы пользователей на основе актуальной информации, снижая риск ошибок и галлюцинаций. В случае с ИИ-агентами, такое взаимодействие позволяет ассистентам выполнять несколько действий в рамках заданного бизнес-сценария без вмешательства специалиста.

Большинство существующих тестов либо не отражают поведение таких систем в реальной среде из-за расхождения между тестовыми данными и базами знаний конкретной компании, либо опираются на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей, снижая объективность результатов тестирования. Открытая методология DRAGOn (Designing RAG on Periodically Updated Corpus) позволяет ИТ-специалистам быстро разворачивать собственную среду для тестирования ИИ-решений на корпоративных данных.

DRAGOn решает эти проблемы за счет автоматизации: система берет свежие новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых еще нет в архивах (аналогичный сценарий можно реализовать на корпоративных базах знаний, получая новые данные в режиме реального времени). Вместо простых вопросов «кто/где/когда», система создает многоуровневые логические задачи. Чтобы ответить, ИИ должен сопоставить несколько фактов из разных новостей, а не просто скопировать кусок текста. Проверкой ответов занимается нейросеть-судья. Он анализирует не просто наличие нужных слов, а фактическую точность и полноту ответов.

«Конкуренция в ИИ смещается от гонки параметров («кто обучил самую большую модель») к эффективности прикладного контура. Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жестком контроле фактов. в этом смысле универсальна. Методология легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до судебных документов, становясь фундаментом для создания надежных ИИ-систем в любой отрасли», – отметил соавтор исследования руководитель центра разработки больших языковых моделей MWS AI Валентин Малых.

В рамках исследования запущен первый публичный лидерборд RAG-систем на русском языке. Текущие результаты показывают, что связка из нескольких моделей в комбинации с продвинутыми методами поиска демонстрируют лучшие показатели точности. Однако даже они сталкиваются с трудностями при обработке сложных логических связей в динамичном потоке данных.

Для бизнеса практическая ценность методологии состоит в том, что на ее основе каждая компания может развернуть собственный контур тестирования на внутренних данных и до внедрения оценить, насколько точно ИИ-система работает именно в ее инфраструктуре и на ее типовых сценариях. Это позволяет сравнивать разные модели и RAG-подходы по единым критериям, снижать риски ошибок в ответах, точнее рассчитывать эффект от внедрения и выбирать решение, которое лучше соответствует требованиям конкретного бизнеса — от клиентского сервиса и внутренних помощников сотрудников до аналитики, документооборота и работы с корпоративными знаниями.

В исследовании приняли участие специалисты Сбера (команда SberAI), Университета искусственного интеллекта имени Мохаммеда бин Заида (MBZUAI), ИТМО, МИСИС, НИУ ВШЭ, MWS AI, Международного университета информационных технологий (IITU) и Школы анализа данных Яндекса.