OpenAI представила мультимодальную генеративную модель GPT-4o

Она умеет разговаривать, видеть, и имитирует эмоции

Андрей Фокин

Компания OpenAI представила мультимодальную генеративную модель GPT-4o, которая может работать с текстом, аудио и изображениями, включая видео. Модель может общаться с пользователем голосом и поддерживает 50 языков. Она может имитировать различные интонации, шепот, пение, смех. При этом модель работает гораздо быстрее предшествующей версии — время задержки ответа в голосовом режиме составляет в среднем около 0,3 секунды, что сравнимо с временем реакции человека. Также модель может видеть, получая и интерпретируя изображение с камеры в реальном времени. Трансляция презентации велась на YouTube.

Первая генеративная языковая модель уровня GPT-4 была представлена компанией OpenAI в марте 2023 года. В отличие от более ранней версии GPT-3.5, которая могла работать только с текстовой информацией, GPT-4 впервые получила способность принимать в качестве входных данных также и изображения. Кроме этого, в том же году состоялся релиз приложения на основе чат-бота ChatGPT с возможностью распознавания речи и синтеза голоса, что позволяло пользователям разговаривать с моделью и использовать ее в роли голосового ассистента.

В понедельник 13 мая 2024 года во время прямой трансляции на YouTube состоялась презентация новой версии GPT-4, которая получила обозначение GPT-4o (символ «о» в конце означает «omni»). Теперь модель принимает в качестве входных данных любую комбинацию текста, звука и изображения, включая видео. При этом она работает гораздо быстрее своей предшественницы, в том числе и во время голосового общения. Генерация ответа происходит со средней задержкой всего лишь 320 миллисекунд, что сравнимо со временем реакции человека в разговоре.

OpenAI представила мультимодальную генеративную модель GPT-4o

Рекомендуемые статьи

Куда отправиться прямо сейчас, чтобы вернуться домой по-настоящему отдохнувшими?

Какую Москву хочет построить Сергей Собянин?

Что делать, если пить 8 стаканов в день не получается?

Самолет, первым отбомбившийся по Берлину в начале войны

Самые громкие скандалы, самые важные имена и самые значимые вехи телепроекта

Кто развивает традиционные промыслы и как пытается на этом заработать

Донорство крови: главные факты, которые важно знать

Хотя кажется, что эмодзи является современной функцией, это на самом деле не так

Фильм об итальянском педагоге, которая создала уникальную систему воспитания

Светлана Адоньева о праздниках и ритуалах, создающих народ

Создатели сериала «Трудные подростки» о проблемных тинейджерах и обществе

Как появилась фраза «Это хуже, чем преступление, это ошибка»?

Какую дружбу мы считаем верной и что сделать, чтоб она у нас была?

Нанесение татуировки увеличивает риск развития лимфомы на 21%

Биография Михаила Ломоносова, в которой автор систематизирует все его достижения

Сможет ли искусственный интеллект предупреждать нас о природных катастрофах

Пять шагов, которые помогут совладать с чувствами вины и стыда

Ученые раскрыли загадку супружеской верности мышей

Направления и тенденции цифровизации деловой среды

Как жили виноделы в годы горбачевской антиалкогольной кампании

Что добавить в воду для мойки окон, чтобы сэкономить деньги на моющих средствах?

Как естественные запахи могут влиять на наши эмоции, мысли и физическое здоровье

Практика Ватсу: как она проходит и влияет на состояние человека

Как уважение стало ценнее власти

Какие мегаполисы стали центрами притяжения для самых богатых людей мира

Все о загадочном авокадо: калорийность, состав, польза

Как физическая активность помогла мышам ослабить симптомы ПТСР

Задумывались ли вы когда-нибудь, не может ли избыток белка стать проблемой?

Глава из книги «Путешествие на восходе солнца» о японской философии кайдзен

Реалистичный позитивизм: что за тип мышления, как он может улучшить вашу жизнь?