Нейросеть от DeepMind научилась решать 604 задачи разных типов

Исследователи из DeepMind разработали мультимодальную нейросеть, способную выполнять задачи разного типа. Например, она умеет управлять роботом, играть в игры для Atari, писать текст и описывать фотографии. Статья об алгоритме опубликована на arXiv.org, также авторы рассказали о нем на сайте DeepMind.

Григорий Копиев

В 2017 году исследователи из Google Brain представили нейросетевую архитектуру Transformer, отличительной особенностью которого стало широкое использование механизма внимания. Это позволяет нейросети гораздо лучше понимать контекст слов и предложений, что в свою очередь позволило добиться большого прогресса в целом в области обработки естественного языка. Один из самых известных примеров этого прогресса: модель GPT-3 от OpenAI. Оказалось, что если обучить модель на огромном массиве текстов, она выучит хорошее представления языка и того, как должны выглядеть тексты, после чего ее можно быстро и на очень небольшом объеме данных дообучить до конкретной задачи. Причем эта задача не обязательно должна быть текстовой: выяснилось, что GPT-3 умеет выполнять базовые арифметические операции.