Как нейросети помогают генерировать контент

Искусственный интеллект может участвовать в производстве медиапродукта двумя способами:

нейросеть берет на себя полный цикл создания контента — в результате «с нуля» появляется уникальное и законченное произведение,
программы лишь помогают авторам решать конкретные прикладные задачи: меняют часть изображения, очищают аудио от шумов, делают рерайт текста. Специалисты не спешат называть это творчеством, потому что в обоих случаях речь идет о работе алгоритмов. Но даже с учетом такой оговорки возможности программ впечатляют.

Генерация контента: нейросеть сама создает произведение

Тексты

Первой успешной нейросетью в этой области стала GPT-3. Это компьютерная языковая модель, которая может создавать связные абзацы и целые главы — иногда их сложно отличить от речи обычного человека.

В модель загружено 46 ТБ интернет-текстов. На основе этих данных система прогнозирует, какие словосочетания и фразы в каких контекстах используются чаще всего. По нескольким вводным словам нейросеть пишет текст, причем способна даже соблюдать единство стиля: если вводные слова относятся к сленгу, то и все произведение будет содержать признаки разговорной манеры речи.

Модель самообучения GPT-3 оказалась настолько успешной, что на ее основе создали и ряд других программ — уже для генерации изображений и видео. В частности, с использованием механизмов GPT-3 работает знаменитый алгоритм DALL-E.

Изображения

Наиболее известная «рисующая» нейросеть — DALL-E. Ученые начали с того, что показали ей целый массив картинок, фотографий и подписей к ним. После этого алгоритмы смогли создавать изображения по словесному описанию. Некоторые из них настолько правдоподобны, что трудно понять: перед вами реальная фотография или сгенерированная картинка.

Позже нейросеть стала комбинировать изображения: она берет значимые элементы с двух иллюстраций и создает новую — уже с совершенно другим сюжетом.

Похожим образом работают и другие нейросети: GauGAN 2, GLIDE, Imagen.

Видео Следующая область, в которой начали работать нейросети, — создание уникального видео на основе текстовых описаний. Исследовательская группа из Китая первой разработала соответствующий алгоритм — CogVideo. По сути, он делает то же, что DALL-E или Imagen: сначала просто создает серию взаимосвязанных изображений. Потом нейросеть выстраивает их в логическую последовательность, чтобы в сюжете появилась динамика.

Пока CogVideo находится в начале пути: на выходе система может давать четырехсекундные клипы в 32 кадра, которые больше напоминают GIF-изображения, чем полноценное видео.

Научные статьи

В конце июня 2022 года создатели нейросети по генерации текстов GPT-3 провели эксперимент: они использовали эту систему для того, чтобы сделать научную публикацию о ней самой.

Исследователи задали алгоритму несколько ключевых слов, и он написал несколько глав научной работы. Периодически ученые корректировали результат, однако следовали правилу: количество правок каждого раздела не должно превышать трех, чтобы участие человека в работе оставалось минимальным.

Сейчас статья находится на стадии рецензирования, и авторы ожидают, что полученный вердикт вдохновит различные этические комиссии на дискуссии о том, какую роль искусственный интеллект сможет играть в науке будущего.

Генерация контента: нейросеть решает прикладные задачи

Нейросети на высоком уровне могут выполнять целый ряд рутинных функций по созданию медиаматериалов.

Тексты:

автоматический рерайт текста с повышением его уникальности,
преобразование текста в звучащую речь и, наоборот, создание письменных материалов из аудио,
генерация описания к фотографиям, что особенно полезно для крупных интернет-магазинов с большим числом карточек товаров.

Изображения:

удаление фона или замена одних блоков картинки другими,
создание 3D-объектов по двумерной фотографии,
разложение изображения на несколько отдельных слоев,
изменение цветовой схемы картинки,
увеличение изображения без потери качества.

Видео:

технологии дипфейков: реалистичная подмена на видео людей, животных и неодушевленных предметов,
автоматическое наложение масок и спецэффектов,
удаление посторонних шумов с аудиодорожки.

Для работы с графикой при помощи нейронных сетей был создан специальный сайт, где собрано около 300 полезных алгоритмов, и эта библиотека постоянно пополняется.