В названии языковой модели появилась буква о, которая обозначает собирательную форму omni и отражает универсальность разработки. Среди основных преимуществ новинки создатели отметили отклик языковой модели на аудиосообщения. GPT-4o реагирует на звуковые запросы в среднем за 320 миллисекунд — такое же время занимает реакция на вопрос у человека. Подобные разговоры стали возможными благодаря тому, что все данные теперь обрабатываются одной нейросетью, а не несколькими, как было ранее.
Новая разработка OpenAI общается с пользователем человеческим голосом и даже может использовать разные интонации. GPT-4o поддерживает 50 языков, умеет синтезировать 3D-объекты и анализировать различные диаграммы и графики. Новинка способна запомнить все предыдущие беседы, поэтому при генерации ответов использует не только информацию из интернета, но и собственные знания.
На сайте OpenAI уже появилось официальное видео, где создатели GPT-4o пообщались со своей разработкой: она естественным голосом смогла ответить на все вопросы, поддержать диалог и даже пошутить. Интересно, что по просьбе пользователя языковая модель может изобразить и голос робота.
Уже известно, что инновация ляжет в основу ChatGPT. Однако все возможности GPT-4o будут внедряться в интерфейс чат-бота постепенно. В ближайшее время появятся улучшенные функции обработки текста и графических данных.
