1. Главная
  2. Как нейросети помогают генерировать контент

Как нейросети помогают генерировать контент

21 июля 20224 минуты чтения
Иллюстрация материала

«Ты всего лишь машина, только имитация жизни. Робот сочинит симфонию? Робот превратит кусок холста в шедевр искусства?» — возмущенно восклицал герой фильма «Я, робот». С момента выхода картины прошло 18 лет, и теперь можно уверенно ответить: напишет, нарисует, превратит. На что способны нейросети в деле создания контента, вы узнаете из этой статьи.

Искусственный интеллект может участвовать в производстве медиапродукта двумя способами:

  • нейросеть берет на себя полный цикл создания контента — в результате «с нуля» появляется уникальное и законченное произведение,
  • программы лишь помогают авторам решать конкретные прикладные задачи: меняют часть изображения, очищают аудио от шумов, делают рерайт текста. Специалисты не спешат называть это творчеством, потому что в обоих случаях речь идет о работе алгоритмов. Но даже с учетом такой оговорки возможности программ впечатляют.

Генерация контента: нейросеть сама создает произведение

Тексты

Первой успешной нейросетью в этой области стала GPT-3. Это компьютерная языковая модель, которая может создавать связные абзацы и целые главы — иногда их сложно отличить от речи обычного человека.

В модель загружено 46 ТБ интернет-текстов. На основе этих данных система прогнозирует, какие словосочетания и фразы в каких контекстах используются чаще всего. По нескольким вводным словам нейросеть пишет текст, причем способна даже соблюдать единство стиля: если вводные слова относятся к сленгу, то и все произведение будет содержать признаки разговорной манеры речи.

Модель самообучения GPT-3 оказалась настолько успешной, что на ее основе создали и ряд других программ — уже для генерации изображений и видео. В частности, с использованием механизмов GPT-3 работает знаменитый алгоритм DALL-E.

Изображения

Наиболее известная «рисующая» нейросеть — DALL-E. Ученые начали с того, что показали ей целый массив картинок, фотографий и подписей к ним. После этого алгоритмы смогли создавать изображения по словесному описанию. Некоторые из них настолько правдоподобны, что трудно понять: перед вами реальная фотография или сгенерированная картинка.

Позже нейросеть стала комбинировать изображения: она берет значимые элементы с двух иллюстраций и создает новую — уже с совершенно другим сюжетом.

Похожим образом работают и другие нейросети: GauGAN 2, GLIDE, Imagen.

Видео Следующая область, в которой начали работать нейросети, — создание уникального видео на основе текстовых описаний. Исследовательская группа из Китая первой разработала соответствующий алгоритм — CogVideo. По сути, он делает то же, что DALL-E или Imagen: сначала просто создает серию взаимосвязанных изображений. Потом нейросеть выстраивает их в логическую последовательность, чтобы в сюжете появилась динамика.

Пока CogVideo находится в начале пути: на выходе система может давать четырехсекундные клипы в 32 кадра, которые больше напоминают GIF-изображения, чем полноценное видео.

Научные статьи

В конце июня 2022 года создатели нейросети по генерации текстов GPT-3 провели эксперимент: они использовали эту систему для того, чтобы сделать научную публикацию о ней самой.

Исследователи задали алгоритму несколько ключевых слов, и он написал несколько глав научной работы. Периодически ученые корректировали результат, однако следовали правилу: количество правок каждого раздела не должно превышать трех, чтобы участие человека в работе оставалось минимальным.

Сейчас статья находится на стадии рецензирования, и авторы ожидают, что полученный вердикт вдохновит различные этические комиссии на дискуссии о том, какую роль искусственный интеллект сможет играть в науке будущего.

Генерация контента: нейросеть решает прикладные задачи

Нейросети на высоком уровне могут выполнять целый ряд рутинных функций по созданию медиаматериалов.

Тексты:

  • автоматический рерайт текста с повышением его уникальности,
  • преобразование текста в звучащую речь и, наоборот, создание письменных материалов из аудио,
  • генерация описания к фотографиям, что особенно полезно для крупных интернет-магазинов с большим числом карточек товаров.

Изображения:

  • удаление фона или замена одних блоков картинки другими,
  • создание 3D-объектов по двумерной фотографии,
  • разложение изображения на несколько отдельных слоев,
  • изменение цветовой схемы картинки,
  • увеличение изображения без потери качества.

Видео:

  • технологии дипфейков: реалистичная подмена на видео людей, животных и неодушевленных предметов,
  • автоматическое наложение масок и спецэффектов,
  • удаление посторонних шумов с аудиодорожки.

Для работы с графикой при помощи нейронных сетей был создан специальный сайт, где собрано около 300 полезных алгоритмов, и эта библиотека постоянно пополняется.

Текст: