Искусственный интеллект может участвовать в производстве медиапродукта двумя способами:
- нейросеть берет на себя полный цикл создания контента — в результате «с нуля» появляется уникальное и законченное произведение,
- программы лишь помогают авторам решать конкретные прикладные задачи: меняют часть изображения, очищают аудио от шумов, делают рерайт текста. Специалисты не спешат называть это творчеством, потому что в обоих случаях речь идет о работе алгоритмов. Но даже с учетом такой оговорки возможности программ впечатляют.
Генерация контента: нейросеть сама создает произведение

Тексты
Первой успешной нейросетью в этой области стала GPT-3. Это компьютерная языковая модель, которая может создавать связные абзацы и целые главы — иногда их сложно отличить от речи обычного человека.
В модель загружено 46 ТБ интернет-текстов. На основе этих данных система прогнозирует, какие словосочетания и фразы в каких контекстах используются чаще всего. По нескольким вводным словам нейросеть пишет текст, причем способна даже соблюдать единство стиля: если вводные слова относятся к сленгу, то и все произведение будет содержать признаки разговорной манеры речи.
Модель самообучения GPT-3 оказалась настолько успешной, что на ее основе создали и ряд других программ — уже для генерации изображений и видео. В частности, с использованием механизмов GPT-3 работает знаменитый алгоритм DALL-E.

Изображения
Наиболее известная «рисующая» нейросеть — DALL-E. Ученые начали с того, что показали ей целый массив картинок, фотографий и подписей к ним. После этого алгоритмы смогли создавать изображения по словесному описанию. Некоторые из них настолько правдоподобны, что трудно понять: перед вами реальная фотография или сгенерированная картинка.
Позже нейросеть стала комбинировать изображения: она берет значимые элементы с двух иллюстраций и создает новую — уже с совершенно другим сюжетом.
Похожим образом работают и другие нейросети: GauGAN 2, GLIDE, Imagen.

Видео Следующая область, в которой начали работать нейросети, — создание уникального видео на основе текстовых описаний. Исследовательская группа из Китая первой разработала соответствующий алгоритм — CogVideo. По сути, он делает то же, что DALL-E или Imagen: сначала просто создает серию взаимосвязанных изображений. Потом нейросеть выстраивает их в логическую последовательность, чтобы в сюжете появилась динамика.
Пока CogVideo находится в начале пути: на выходе система может давать четырехсекундные клипы в 32 кадра, которые больше напоминают GIF-изображения, чем полноценное видео.

Научные статьи
В конце июня 2022 года создатели нейросети по генерации текстов GPT-3 провели эксперимент: они использовали эту систему для того, чтобы сделать научную публикацию о ней самой.
Исследователи задали алгоритму несколько ключевых слов, и он написал несколько глав научной работы. Периодически ученые корректировали результат, однако следовали правилу: количество правок каждого раздела не должно превышать трех, чтобы участие человека в работе оставалось минимальным.
Сейчас статья находится на стадии рецензирования, и авторы ожидают, что полученный вердикт вдохновит различные этические комиссии на дискуссии о том, какую роль искусственный интеллект сможет играть в науке будущего.

Генерация контента: нейросеть решает прикладные задачи
Нейросети на высоком уровне могут выполнять целый ряд рутинных функций по созданию медиаматериалов.
Тексты:
- автоматический рерайт текста с повышением его уникальности,
- преобразование текста в звучащую речь и, наоборот, создание письменных материалов из аудио,
- генерация описания к фотографиям, что особенно полезно для крупных интернет-магазинов с большим числом карточек товаров.
Изображения:
- удаление фона или замена одних блоков картинки другими,
- создание 3D-объектов по двумерной фотографии,
- разложение изображения на несколько отдельных слоев,
- изменение цветовой схемы картинки,
- увеличение изображения без потери качества.
Видео:
- технологии дипфейков: реалистичная подмена на видео людей, животных и неодушевленных предметов,
- автоматическое наложение масок и спецэффектов,
- удаление посторонних шумов с аудиодорожки.
Для работы с графикой при помощи нейронных сетей был создан специальный сайт, где собрано около 300 полезных алгоритмов, и эта библиотека постоянно пополняется.
