Исследователи из Meta (признана экстремистской организацией на территории РФ) разработали мультимодальный метод обучения нейросетей
Исследователи из Meta (признана экстремистской организацией на территории РФ) AI (ранее Facebook (соцсеть признана в РФ экстремистской и запрещена) AI) разработали единый метод обучения нейросетей, подходящий для работы с изображениями, звуком и текстом. В нем используется две идентичные нейросети — учитель и ученик. Учитель получает полные входные данные, а ученик получает частичные и учится предсказывать внутреннее представление полной версии этих данных в модели-учителе. Модели, обученные таким методом, оказались лучше или сравнимы с моделями, обученные методами, специфичными для одного типа данных. Статья и краткое описание метода опубликованы на сайте Meta (признана экстремистской организацией на территории РФ) AI.
В последние годы исследователи в области машинного обучения все чаще используют обучение без учителя или самообучение. Особенно полезно оно когда необходимо использовать огромные объемы данных или обучать модель на задаче, для которой нет достаточных датасетов, например, для обучения языковой модели на редком языке. Один из самых ярких примеров такого типа обучения — GPT-3, которая обучалась на 570 гигабайтах текстов. Однако разработки в области самообучения, как правило, сосредоточены на одной модальности (одном типе данных), и методы обучения зачастую нельзя напрямую применить к другим модальностям.
Группа исследователей из Meta (признана экстремистской организацией на территории РФ) AI под руководством Майкла Аули (Michael Auli) разработала метод обучения, подходящий для разных типов данных. Разработчики использовали в качестве обучаемой модели для всех трех модальностей стандартный трансформер и добавляли к нему на вход специфичный энкодер для того или иного типа данных. Во время обучения используется две нейросетевых модели (учитель и ученик), но по сути они идентичны друг другу и отличаются тем,