В чем особенности открытых языковых моделей и как выбрать подходящую для конкретных задач

В чем специфика открытой LLM

Открытая языковая модель (Open-source LLM) — это большая языковая модель, которая доступна для свободного использования и модификации. Благодаря открытому коду и параметрам исследователи и программисты изучают их внутреннюю работу, настраивают под свои нужды и создают на их основе новые модели. Сейчас существует более сотни опенсорсных нейросетей. Для работы с ними требуется минимум вложений и вычислительных ресурсов, поэтому часто открытые LLM выбирают небольшие компании и стартапы.

К преимуществам открытых LLM относятся:

Свобода использования. Для обучения модели можно брать собственные данные.
Глубокая настройка. Внутренняя информация позволяет получать актуальные результаты, которые соответствуют требованиям конкретного бизнеса.
Безопасность и конфиденциальность. Развертывание открытых моделей внутри защищенного контура снижает риски, которые связаны с передачей данных во внешние облачные сервисы.
Гибкость. Модель можно настраивать и адаптировать с учетом меняющихся потребностей компании.
Экономия средств. Использование открытых языковых моделей не нужно оплачивать разработчикам.
Быстрое устранение ошибок. Open-source-проекты поддерживаются разработчиками, поэтому любые сложности решаются в короткие сроки. Также в документации подробно указывают детали применения нейросети.
Нестандартные подходы. Разработчики могут экспериментировать с открытыми моделями, чтобы получить уникальный продукт.
Операционная независимость. Только пользователь решает, когда и как обновлять модель. Он не зависит от условий поддержки и технического обслуживания стороннего поставщика.

Недостатки опенсорсных LLM:

Техническая подкованность. Чтобы внедрить такую нейросеть в работу, потребуются время и знания ИТ-специалистов.
Соблюдение нормативов. Компаниям необходимо проверять происхождение данных, которые используются для обучения моделей. Информация должна соответствовать законодательству и этическим нормам.
Повышенная частота галлюцинаций. Если нейросеть обучали малоизвестные эксперты, она может чаще выдавать неполные и некачественные ответы.
Внезапные проблемы. Опенсорсные модели могут выдавать ошибки, которые не предусмотрены в документации.

Как выбрать подходящую языковую модель

Нейросети лучше анализировать по отдельным параметрам на специальных виртуальных площадках для сравнения, которые называются лидербордами. Ориентироваться нужно на те метрики, которые важны для решения конкретной задачи. Так, одна и та же языковая модель может быть успешной по одним критериям и показывать низкие результаты по другим.

К популярным площадкам относят:

Open LLM Leaderboard. Платформа принадлежит компании Hugging Face. Она анализирует новейшие LLM и чат-боты по семи метрикам.
AlpacaEval Leaderboard. Оценивает способность LLM выполнять инструкции пользователя. В качестве эталона — ответы нейросети на базе модели GPT-4.

При выборе открытой языковой модели также обращают внимание на ее размер и поддержку языков. Современные LLM могут быть небольшими, что не мешает им легко справляться с запросами пользователя.

Базовый язык нейросетей — английский. Но существуют модели с поддержкой только местного языка и мультиязычные.

Какие модели с открытым исходным кодом популярны

BERT. Языковая модель создана исследователями из Google AI и обучена на наборе данных, который включает 3,3 миллиарда слов. Инновация BERT заключается в двунаправленном понимании контекста. Обычно LLM обрабатывают текст последовательно, BERT читает предложения в обоих направлениях одновременно. Это позволяет улавливать сложные контекстные связи.

Bloom. Для обучения модели использовали набор данных в 1,6 Тб, который охватывает 46 естественных языков и 13 языков программирования. Кроме того, LLM обучалась в течение 3,5 месяцев на суперкомпьютере Jean Zay во Франции. Bloom справляется с задачами от создания и обобщения текстов до генерации кода.

CodeGen. Разработана компанией Salesforce и специально предназначена для генерации кода. Обучена на наборе данных HumanEval, который помогает модели понимать человеческую логику и решать задачи, создавая более качественный код. LLM знает различные языки программирования. Кроме того, CodeGen можно настраивать под специфические нужды проекта, что делает модель гибкой.

Falcon 2. LLM разработана Институтом технологических инноваций в Абу-Даби. Обучена на высококачественных данных, которые получены из Интернета и книг, а также включают технические тексты, программный код и диалоги. Всего было использовано более 5 триллионов токенов. В основном LLM ориентирована на английский, но часть данных охватывает другие языки.

Llama 3. Модель обучена на более чем 15 триллионов токенов из общедоступных источников, охватывает более 30 языков. Чтобы гарантировать высокое качество информации, для обработки данных использовалась обширная фильтрация. LLM может генерировать творческий текст, имеет сильные навыки программирования, рассуждает логически и решает сложные задачи.

ruGPT-3.5. Модель обучена на текстовом корпусе размером около 1 Тб, куда входят юридические документы, новостные тексты и часть The Stack (открытый сет с кодом) от коллаборации исследователей BigCode. Оптимизирована под работу с русским языком. Содержит 13 миллиардов параметров. В обучении модели участвовали команды SberDevices и Sber AI. LLM использовалась для обучения GigaChat.