Первая колонка с голосовым ассистентом появилась на рынке в 2015 году. С ее помощью пользователи могли и слушать музыку, и искать в интернете ответы на простые вопросы. Интересно, что устройство создали не крупные поисковики вроде «Google» или «Yahoo!», а компания «Amazon». После этого стало понятно, что направление перспективное, и разработкой умных колонок занялись многие корпорации.
Когда производители создают и совершенствуют свои устройства, они решают несколько важных задач. С одной стороны, колонка должна хорошо распознавать звучащую речь и понимать, чего от нее хочет пользователь. С другой — подключаться к массиву информации и не просто транслировать готовые сведения, но анализировать и фильтровать их в соответствии с запросом человека. Наконец — синтезировать голос для общения с людьми. Устройства производителей различаются в нюансах, но есть и базовые принципы их работы.
Распознавание речи человека. Процесс состоит из двух этапов. Первичная обработка происходит непосредственно в колонке: она понимает, что человек с ней заговорил. В этот момент устройство записывает всю информацию и передает ее на сервер. Там нейросеть делит весь произнесенный текст на небольшие фрагменты и сопоставляет каждый с загруженными в базу образцами. Параллельно она сверяется с существующей у нее моделью языка. Модель содержит данные о том, как люди строят предложения и в каком контексте обычно используют те или иные слова — это помогает более корректно распознавать речь. Всесторонне проанализировав текст, программы «понимают», что именно хотел сказать человек.
Анализ информации. Поняв запрос пользователя, умная колонка либо выполняет команду (включает музыку, свет, фильм по телевизору), либо ищет данные в сети. Как правило, устройство выдает информацию с наиболее посещаемых ресурсов или использует в качестве источника сервисы той экосистемы, которую поддерживает производитель.
Синтез речи. Когда информация найдена и обработана, умная колонка ее озвучивает. Если у человека обычный запрос, используется база готовых ответов — для этого штат редакторов отбирает наиболее частотные команды и пишет под них несколько сценариев. Если готового ответа нет, компьютер сам его конструирует на основе большого корпуса загруженных текстов. Встроенная модель языка помогает делать интонации более естественными. Программа анализирует текст, который предстоит озвучить, и определяет, где нужно расставить акценты и сделать логическое ударение.
Все описанные процессы по распознаванию текстов, анализу информации и синтезу речи происходят за доли секунды, так что человеку кажется, будто он разговаривает непосредственно с умной колонкой.
Оставьте заявку и наш специалист проконсультирует вас.