RuModernBERT: нейросеть от VK для работы с текстами

Компания VK уже добавила RuModernBERT в свои сервисы и выложила ее в открытый доступ. Инженеры могут изучить возможности нейросети и использовать ее для любых задач по работе с текстом, связанных с поиском и анализом информации.

Обучение модели проходило на русском и английском языках, а также на программном коде. Объем обработанных данных составил 2 трлн токенов. При этом максимальная длина контекста достигла порядка 8 тысяч токенов. В процессе обучения были использованы разные источники: книги, статьи, посты и комментарии в соцсетях, что позволило нейросети научиться работать с современными текстами и разговорной речью.

Сегодня доступны два варианта языковой модели: на 150 и 35 млн параметров. Обновлены и дополнительные версии нейросети — USER и USER2. Они помогают в поиске и группировке похожей информации, а также уменьшают объем данных с минимальной потерей точности. Поэтому разработчики могут выбрать нужную конфигурацию под разные типы задач.

Современная архитектура позволяет добиться развертывания модели на конечных устройствах на 10–20 % быстрее по сравнению с предыдущей версией ModernBERT. Обработка длинных текстов тоже ускорилась в 2–3 раза. Внутренние тесты показали, что по результатам обработки текстов на русском языке новинка превосходит аналоги в своей категории.