«Один — за троих»: что умеет GPT-4 и как он изменит работу людей
Американский разработчик OpenAI представил новое поколение алгоритма по обработке естественного языка — GPT-4. В отличие от своих предшественников, нейросеть научилась анализировать изображения. Inc. узнал у экспертов, что конкретно умеет новая модель, как она изменит рынок труда и можно ли ее использовать в России.
Представленный OpenAI в 2020 году генератор текста GPT-3 стал одной из самых обсуждаемых технологий в сфере искусственного интеллекта (ИИ). Система основана на принципе языковой модели: алгоритм, обученный на огромном массиве текстов (от литературной классики до постов в соцсетях), определяет, какие слова в какой последовательности располагаются в предложении, и создает оригинальный текст.
В 2022 года OpenAI запустила чат-бот ChatGPT на основе GPT-3.5. Его назвали «убийцей Google», при этом на него обрушилось много критики за то, что алгоритм генерирует хорошо звучащий текст, но не способен его качественно анализировать.
Наконец, 15 марта вышло новое поколение алгоритма — GPT-4. По данным OpenAI, нейросеть превосходит предыдущую свою версию на 40% по достоверности информации, а ее склонность к запрещенному контенту снижена на 82%: шесть месяцев модель учили этике и ценностным ориентирам.
Microsoft заявила, что их браузер Bing уже работает на GPT-4. В OpenAI указывают, что технология также используется в приложениях Duolingo, Be My Eyes, Stripe, Morgan Stanley, Khan Academy, а также в правительстве Исландии.
Мультимодальность и галлюцинации
Главное отличие GPT-4 от GPT-3.5 в мультимодальности — возможности обрабатывать одной моделью тексты и изображения. Прошлая версия работала только с текстом. К тому же в новой модели объем текстов для обработки увеличен более чем в восемь раз.
«Теперь вместо описания процесса или запроса в GPT-4 можно загрузить картинку и получить быстрый результат», — говорит руководитель команды продуктовой аналитики «Нетологии» Артем Чистяков
Представленные авторами GPT-4 примеры показывают «впечатляющее качество понимания изображений и ответов на вопросы», считает директор по науке Лаборатории искусственного интеллекта «Сбера» Андрей Савченко. Запросы включают в себя текст и поясняющую картинку — графики, блок-схемы алгоритмов (в том числе нарисованных от руки). Кроме того, GPT-4 лучше решает стандартные задачи, среди которых — поиск ответа на вопросы, ведение диалога, в том числе чтобы уточнить контекст предыдущих вопросов и ответов, суммаризация текста, создание художественных текстов, генерация программного кода по текстовому описанию, включая создание сайтов и мобильных приложений.
GPT-4 способна описать, что изображено на иллюстрации и даже объяснить смысл «увиденного», в том числе символизм и юмор в мемах. «Например, в презентации GPT-4 ИИ объяснял смысл визуальных шуток (например, iPhone с подключенным к нему древним VGA-кабелем1). Более того, проанализировав фото содержимого открытого холодильника, он рассказывал, какие блюда можно из этого приготовить», — говорит управляющий партнер аналитического агентства Spektr Николай Седашов.По его словам, в ближайшее время ИИ можно будет «скармливать» большие презентации с инфографикой и иллюстрациями, а на выходе получать обобщенный пересказ с основными цифрами и данными. «У этой функции есть еще как минимум одна важная область применения — помощь людям с нарушениями зрения», — добавляет эксперт.
1Кабель для связи монитора и компьютера.
Модель может написать HTML-код, при исполнении которого получается разметка веб-сайта с тем же контентом, что и на сфотографированном листе бумаги. «Это определенно изменит будущее программирования, но как и в какой степени — сейчас сложно предположить», — говорит руководитель Softline Venture Partners Елена Волотовская.
Помимо этого, GPT-4 более креативна, надежна для решения трудных и специфических заданий, способна обрабатывать более сложные инструкции, чем предыдущие версии, говорит Андрей Кузнецов, исполнительный директор по исследованию данных Sber AI. Так, модель умеет решать задачи, в которых нужно работать с текстом на уровне символов, что считается трудным для языковых моделей. Она может составить краткое содержание длинного текста, все слова в котором будут начинаться на одну и ту же букву. GPT-4 также успешно справляется с обработкой структурированных данных, умеет выделять важную информацию и отбрасывать лишний текст, добавляет Кузнецов.