LIBRA: новый стандарт проверки искусственного интеллекта на выносливость

Российские ученые создали уникальный тест для ИИ на длинные тексты

В России разработан первый комплексный набор испытаний для искусственного интеллекта, способного работать с большими текстовыми массивами. Новый бенчмарк LIBRA (Long Input Benchmark for Russian Analysis) призван оценить, насколько современные языковые модели действительно способны «удерживать в памяти» и анализировать тексты, сравнимые по объему с целой книгой. До сих пор подобные инструменты для русского языка отсутствовали, а существующие тесты не позволяли объективно сравнивать нейросети между собой.

LIBRA включает 18 заданий, сгруппированных по уровню сложности, и охватывает широкий диапазон задач — от поиска конкретной информации до сложных логических и математических рассуждений. Такой подход позволяет выявить сильные и слабые стороны моделей, а также понять, где именно искусственный интеллект начинает «теряться» в длинных документах.

Структура LIBRA

В основе LIBRA лежит принцип многоуровневой проверки. Первая группа заданий — это поиск уникальных фраз в огромном тексте, своего рода «иголка в стоге сена». Модель должна быстро и точно найти нужную информацию среди тысяч строк. Следующий уровень требует не просто поиска, а осмысленного ответа на вопросы, основанные на содержании документа.

Третья категория заданий заставляет нейросеть анализировать и сопоставлять разрозненные факты, разбросанные по всему тексту. Здесь уже недостаточно поверхностного поиска — требуется настоящее аналитическое мышление. Самые сложные испытания связаны с логикой и математикой: искусственный интеллект должен не только понять прочитанное, но и сделать выводы, опираясь на весь контекст.

Открытость и доступность

LIBRA создан как открытая платформа для исследователей и разработчиков. Все задания, датасеты и инструменты для оценки доступны на публичном лидерборде, что позволяет сравнивать результаты разных моделей в честной и прозрачной среде. Такой подход стимулирует здоровую конкуренцию и ускоряет развитие технологий обработки длинных текстов на русском языке.

Мария Тихонова, руководитель направления SberAI и доцент ВШЭ, подчеркивает важность открытых инструментов для совместной работы в эпоху стремительного развития искусственного интеллекта. По ее словам, LIBRA — это не просто набор задач, а полноценная «песочница» для тестирования и совершенствования нейросетей.

Результаты тестирования

На LIBRA уже были испытаны 17 популярных языковых моделей. Итоги оказались показательными: даже самые продвинутые системы начинают терять точность по мере увеличения объема текста. Лидером среди протестированных моделей стала GPT-4o, а среди открытых решений — GLM4-9B-Chat, доступная российским разработчикам.

Главный разработчик LIBRA Игорь Чурин отмечает, что ограниченное «контекстное окно» долгое время мешало внедрению LLM (Large Language Models) в реальные бизнес-процессы и научные исследования. Новый бенчмарк позволяет количественно оценить, как модели справляются с задачами, требующими анализа десятков тысяч токенов — от больших статей до целых книг.

Особенности и перспективы

LIBRA отличается не только масштабом, но и уникальным подходом к созданию заданий. Четырнадцать из восемнадцати тестов были разработаны специально для этого проекта на основе открытых русскоязычных источников. Это позволяет учитывать специфику языка и культурного контекста, что невозможно при использовании переводных датасетов.

Айдар Булатов из лаборатории нейронных систем и глубокого обучения МФТИ отмечает, что до появления LIBRA у российских разработчиков не было единого стандарта для проверки моделей на длинных текстах. Теперь у каждого есть возможность объективно сравнить свои решения и выявить направления для дальнейшего развития.

Команда проекта планирует расширять бенчмарк, добавляя новые типы заданий и текстовые домены. Это позволит еще глубже анализировать возможности искусственного интеллекта и выявлять его слабые места.

Если Вы не знали, SberAI — это подразделение Сбера, занимающееся исследованиями и разработкой в области искусственного интеллекта. Мария Тихонова, возглавляющая направление, активно участвует в создании открытых платформ для развития ИИ в России. Игорь Чурин — ведущий специалист по языковым моделям, стоящий у истоков проекта LIBRA. МФТИ (Московский физико-технический институт) — один из ключевых научных партнеров, поддерживающих инициативу по развитию отечественных технологий искусственного интеллекта.

Fernando Molina 01.12.2025 19:54

6 4 мин.

Российские ученые создали уникальный тест для ИИ на длинные тексты