Как большие языковые модели влияют на развитие телекоммуникационной отрасли

Возможности больших языковых моделей

LLMs — это модели глубокого обучения, которые обрабатывают информацию и генерируют текст. Можно выделить три основные компетенции больших языковых моделей.

Семантические способности. LLMs понимают тонкости языка, что позволяет им детально воспринимать запросы пользователя. В сфере телеком это будет полезным. Например, телекоммуникационная сеть крупного города ежедневно получает миллионы сообщений. Многие сбои указывают на одни и те же неполадки. Однако из-за разделения внутри сетевой инфраструктуры отсутствует система, которая могла бы автоматически классифицировать обращения и группировать заявки. С этим может справиться LLM.

Интеллектуальный доступ к знаниям. LLM способны обрабатывать и понимать сложную информацию, распознавать закономерности и делать логические выводы из предоставленных данных. Так, языковые модели могут повысить производительность специалистов. Например, LLM получает уведомление о неисправности и предлагает возможные решения вопроса, может также составить шаблонное электронное письмо для полевых инженеров. От оператора потребуется проверить детали и подтвердить отправку.

LLM как организаторы. LLM могут разбивать сложные задачи на небольшие подзадачи и подбирать инструменты для каждой отдельной операции. Например, нужно спрогнозировать потребление энергии на базовой станции после модернизации оборудования. LLM может разделить задачу на два этапа:

спрогнозировать объем трафика;
оценить энергопотребление для указанной нагрузки и оборудования.

Затем она выбирает подходящую модель машинного обучения для каждой подзадачи и указывает данные, необходимые для ее обучения.

Ограничения больших языковых моделей

Галлюцинации и выдумки. LLMs полагаются на статистические закономерности и ассоциации, которые получают во время обучения. Они могут выдавать ответы, которые соответствуют этим шаблонам, но являются неправильными или несуществующими.

Ограниченная объяснимость. Сложная архитектура и огромное количество параметров в LLM не позволяют отследить процесс принятия решения. Неясно, на что опиралась языковая модель при выборе ответа.

Вычислительная сложность. LLMs состоят из миллионов или даже миллиардов параметров. Им требуется много ресурсов для обучения и развертывания. Чтобы сгенерировать ответ, языковая модель проводит множество сложных вычислений на нескольких уровнях. Это способно перегрузить систему доступных ресурсов, что негативно влияет на приложения, которые работают в реальном времени.

Чувствительность к обновлениям. Изменения в параметрах LLM могут приводить к непредвиденным результатам.

Несогласованность выходных данных. Ответ LLM не всегда соответствует намерениями пользователя или желаемой задаче, даже если в запросе указывается требуемый результат. Это может затруднить применение LLMs.

Как сейчас языковые модели применяются в телекоммуникационной сфере

LLMs уже продемонстрировали свой потенциал в различных областях, долгое время их применение в телекоммуникационной отрасли было ограниченным. Однако эта ситуация меняется. Рассмотрим примеры.

Языковая модель BERT была адаптирована для области телекоммуникаций. Она умеет отвечать на вопросы из этой сферы. Была обучена на небольшом наборе данных, собранных вручную.

В другом исследовании модели BERT и GPT-2 были использованы для классификации рабочих групп в рамках проекта партнерства третьего поколения (3GPP) на основе анализа технических спецификаций. Также установлено, что LLM могут помочь в оптимизации и улучшении сетей радиодоступа RAN.

Параллельно с работой исследовательского сообщества компании предлагают первые продукты с LLM. Huawei выпустила Pangu — модуль LLM, который был протестирован в горнодобывающей промышленности, государственном секторе и приложениях для исследований и разработок.

Qualcomm выпустила движок искусственного интеллекта, который поддерживает до 10 миллиардов параметров генеративных моделей ИИ на мобильных телефонах. Это позволяет помощнику искусственного интеллекта генерировать изображения по текстовым запросам.

Google внедрила возможности генеративного искусственного интеллекта в облачную платформу, чтобы предложить операторам мобильной связи интегрировать функции обработки естественного языка в свои приложения. Это может быть анализ данных, поиск информации в юридических документах или чат-бот для лучшего взаимодействия с клиентами.

Как можно использовать LLM в телекоме

Устранение сетевых аномалий. Базовые станции в телекоммуникационной отрасли подвержены аппаратным и программным сбоям, на них оказывают влияние факторы окружающей среды. Чтобы устранить неполадки, потребуются тщательный анализ и затраты рабочей силы. Операторы мобильной связи хранят множество заявок, связанных с сетевыми аномалиями. Они охватывают реальные сценарии различных неисправностей оборудования. Эти данные можно использовать для обучения LLM. Так, LLM может диагностировать сетевые проблемы и предложить операторам соответствующие решения. Кроме того, LLM сумеет оценить, сколько времени понадобится для устранения сетевых сбоев, учитывая особенности оборудования.

Понимание спецификаций 3GPP. Проект партнерства третьего поколения (3GPP) разрабатывает протоколы для мобильных телекоммуникаций, включая радиодоступ, базовую сеть и возможности обслуживания. Чтобы найти нужную информацию в обширной документации, инженерам приходится тратить много времени. На базе LLM можно создать интерактивные чат-боты, которые будут адаптированы к запросам по документации 3GPP. Это позволит специалистам экономить время и более точно и продуктивно внедрять стандарты 3GPP.

Сетевое моделирование. Оптимизация мобильных сетей — сложная задача, которая требует создания множества моделей. Они помогут выявить ключевые показатели эффективности сети и установят взаимосвязи между различными сетевыми параметрами конфигурации. Для создания таких моделей понадобятся опытные инженеры с глубокими знаниями предметной области. LLM поможет в разработке таких моделей.

Авторы исследования провели эксперимент. Взяли сеть, которая состоит из 90 базовых станций с одной несущей. В качестве LLM выбрали GPT-3.5. Языковой модели предоставили список из 12 характеристик данных. Например, местоположение станций, частота и нагрузка. Задачи LLM:

выбрать соответствующие характеристики для создания модели оценки потребления электроэнергии;
предоставить математическую формулу, фиксирующую взаимосвязь между входными и выходными данными;
разработать сценарий для подгонки модели к набору сведений, содержащих реальные сетевые данные.

В результате GPT-3.5 на основе своих знаний успешно идентифицировала пять релевантных входных данных.

Измеренное реальное потребление энергии при различных нагрузках выявляет три тенденции, которые соответствуют трем различным конфигурациям максимальных мощностей передачи. Оценки, выполненные с помощью модели от GPT-3.5, достигли относительной погрешности в 7,8 %.

Языковая модель суммировала выбранные входные данные и не учитывала взаимосвязь между нагрузкой и максимальной мощностью передачи. Чтобы устранить это ограничение, авторы исследования предоставили LLM новый контекст — данные, которые определяют энергопотребление универсальной базовой станции, что помогло снизить погрешность до 3 %. Это подчеркивает важность предоставления контекста, связанного с телекоммуникациями.

Также GPT-3.5 попросили оценить среднее почасовое потребление энергии в выбранной сети в двух вариантах с учетом контекста и без него. Для сравнения также использовали:

Наивную модель — оценивает потребление энергии за час путем усреднения потребления энергии за данный час, измеренного в тот же временной промежуток на предыдущей неделе. Частота ошибок наивной модели составляет 12 %. Так происходит из-за недостатка знаний в области телекоммуникаций.
Модель, разработанную экспертами. Она достигает погрешности в 2,3 %.

GPT-3.5 превзошла результаты наивной модели и добилась точности до 75 %, вплотную приблизившись к производительности модели экспертов.

Важно учесть, что на результаты решения задач влияет выбор LLM. Тот же эксперимент был проведен с использованием LLaMA-70B. Модель, которую предложила LLaMA, аналогична модели GPT-3.5 и приводит к частоте ошибок в 7,6 %. Но в отличие от GPT-3.5 LLaMA даже при предоставлении контекста было трудно распознать взаимосвязь между нагрузкой и максимальной мощностью передачи.

Будущие направления исследований LLM в телекоммуникациях

Модель, специализированная для отрасли телеком. Базовые модели LLM понимают теорию телекоммуникаций, но им не хватает практических знаний. Эксперимент авторов исследования доказал, что существует разрыв между универсальными LLM и LLM, которые получают дополнительный контекст.

Специализированная языковая модель будет опираться на стандарты, технические документы, исследовательскую литературу и эксклюзивные запатентованные материалы или наборы данных, созданные с помощью симуляторов.

Интегрировать дополнительные знания в языковую модель можно тремя путями:

Полное обучение модели. Разрешает достичь глубокого понимания за счет значительных затрат энергии и сложности.
Точная настройка. Помогает специализировать модель путем обучения минимального количества параметров. Один из методов — адаптация низкого ранга (LoRa).
RAG — генерация с дополненной выборкой. Позволяет использовать внешние знания из базы данных. Это более экономичное и удобное решение.

Сравнительный анализ LLM для телекоммуникаций. Исследователи предложили ряд тестов, которые помогут оценить возможности LLM с точки зрения обработки естественного языка. Последние LLM близки к уровню человека по некоторым тестам, но все еще они не могут достичь экспертного уровня точности в специализированных задачах. Успех LLM в телекоммуникационной отрасли зависит от контрольных наборов данных, разработанных для оценки их квалификации в этой области.

Сжатие LLM. Чтобы развертывать LLM на устройствах с ограниченными вычислительными возможностями и объемами хранения, нужно научиться уменьшать их размер. Наиболее популярные методы сжатия — обрезка, квантование и дистилляция знаний. При этом сжатие не должно влиять на производительность LLM.

Конфиденциальность. Адаптация LLM для сферы телекома связана с использованием конфиденциальной информации о пользователе. Чтобы защитить эти данные, используют анонимизацию и агрегирование. Эффективное удаление информации, позволяющей установить личность, помогает обеспечить безопасность в случае утечки сведений.

Согласование поведения. Запрос внешних знаний с помощью RAG уменьшает количество ошибок. Также важно включить специальные механизмы и метрики для оценки достоверности ответов. Например, в случае неопределенности привлекать к проверке экспертов. В качестве методов оценки достоверности LLM можно использовать оценку вероятности результата, генерацию нескольких ответов на один запрос или одну LLM для анализа и уточнения результатов другой. Кроме того, поведение языковой модели зависит от качества пользовательских запросов.

Объяснимость. Чтобы использовать LLM в телекоммуникационной отрасли, требуется четкое понимание, как она выдает конкретные результаты. Это значит, что LLM должна предоставлять источники и уметь обосновать ответ.

Контекст реального времени. LLM обучаются в автономном режиме, а значит, не получают актуальных данных, которые могут быть доступны через поисковые системы. Так можно получить устаревший ответ, ведь телекоммуникационная отрасль постоянно развивается. Один из вариантов решения — доступ LLM к внешним данным. Например, к Интернету по выделенным каналам, как это сделал OpenAI с ChatGPT.

Другой подход — собирать новые актуальные знания в области телекоммуникаций, а затем использовать их с помощью RAG или путем дополнительного обучения LLM.

Воздействие на окружающую среду. Чтобы уменьшить углеродный след от обучения и развертывания LLM, следует отдавать предпочтение небольшим и эффективным моделям. Кроме того, важно разработать механизмы, которые помогут снизить вычислительную нагрузку.

LLM как организаторы. Языковые модели переводят запросы пользователей в активные действия. Для этого они используют свои знания и доступные им блоки. Это могут быть оптимизаторы, интерпретаторы кода, блоки обработки сигналов. В таком случае нужно обеспечить бесшовную интеграцию между LLM и блоками.