«Ты всего лишь машина, только имитация жизни. Робот сочинит симфонию? Робот превратит кусок холста в шедевр искусства?» — возмущенно восклицал герой фильма «Я, робот». С момента выхода картины прошло 18 лет, и теперь можно уверенно ответить: напишет, нарисует, превратит. На что способны нейросети в деле создания контента, вы узнаете из этой статьи.
Искусственный интеллект может участвовать в производстве медиапродукта двумя способами:
Тексты
Первой успешной нейросетью в этой области стала GPT-3. Это компьютерная языковая модель, которая может создавать связные абзацы и целые главы — иногда их сложно отличить от речи обычного человека.
В модель загружено 46 ТБ интернет-текстов. На основе этих данных система прогнозирует, какие словосочетания и фразы в каких контекстах используются чаще всего. По нескольким вводным словам нейросеть пишет текст, причем способна даже соблюдать единство стиля: если вводные слова относятся к сленгу, то и все произведение будет содержать признаки разговорной манеры речи.
Модель самообучения GPT-3 оказалась настолько успешной, что на ее основе создали и ряд других программ — уже для генерации изображений и видео. В частности, с использованием механизмов GPT-3 работает знаменитый алгоритм DALL-E.
Изображения
Наиболее известная «рисующая» нейросеть — DALL-E. Ученые начали с того, что показали ей целый массив картинок, фотографий и подписей к ним. После этого алгоритмы смогли создавать изображения по словесному описанию. Некоторые из них настолько правдоподобны, что трудно понять: перед вами реальная фотография или сгенерированная картинка.
Позже нейросеть стала комбинировать изображения: она берет значимые элементы с двух иллюстраций и создает новую — уже с совершенно другим сюжетом.
Похожим образом работают и другие нейросети: GauGAN 2, GLIDE, Imagen.
Видео Следующая область, в которой начали работать нейросети, — создание уникального видео на основе текстовых описаний. Исследовательская группа из Китая первой разработала соответствующий алгоритм — CogVideo. По сути, он делает то же, что DALL-E или Imagen: сначала просто создает серию взаимосвязанных изображений. Потом нейросеть выстраивает их в логическую последовательность, чтобы в сюжете появилась динамика.
Пока CogVideo находится в начале пути: на выходе система может давать четырехсекундные клипы в 32 кадра, которые больше напоминают GIF-изображения, чем полноценное видео.
В конце июня 2022 года создатели нейросети по генерации текстов GPT-3 провели эксперимент: они использовали эту систему для того, чтобы сделать научную публикацию о ней самой.
Исследователи задали алгоритму несколько ключевых слов, и он написал несколько глав научной работы. Периодически ученые корректировали результат, однако следовали правилу: количество правок каждого раздела не должно превышать трех, чтобы участие человека в работе оставалось минимальным.
Сейчас статья находится на стадии рецензирования, и авторы ожидают, что полученный вердикт вдохновит различные этические комиссии на дискуссии о том, какую роль искусственный интеллект сможет играть в науке будущего.
Нейросети на высоком уровне могут выполнять целый ряд рутинных функций по созданию медиаматериалов.
Тексты:
Изображения:
Видео:
Для работы с графикой при помощи нейронных сетей был создан специальный сайт, где собрано около 300 полезных алгоритмов, и эта библиотека постоянно пополняется.