Как языковые ИИ-модели добились такого невероятного прогресса всего за десятилетие
Группа исследователей проанализировала рост больших языковых моделей с 2012 года до наших дней, и постаралась ответить на вопрос: за счет чего этот рост достигнут? Как показали ученые на прогресс в развитии языковых моделей повлияли два фактора: алгоритмические инновации и рост вычислительных мощностей. Сейчас вычислительные мощности — важнее, но, видимо, так будет не всегда.
Люди думают примерно с одной и той скоростью. Когда хайп спадет, и сумасшедшие деньги, которые сегодня вкладывают в вычислительные мощности, более-менее иссякнут, алгоритмы своей важности не потеряют.
В 2012 году лучшими языковыми моделями были небольшие рекуррентные сети, которым было сложно сформировать связные предложения. Но если мы перенесемся в сегодняшний день, то увидим большие языковые модели, такие как GPT-4, которые превосходят большинство американских абитуриентов университетов по тесту SAT. Как стал возможен такой быстрый прогресс?
В новой работе исследователи из Epoch, MIT FutureTech и Северо-Восточного университета решили разобраться с этим вопросом. Их исследование разделяет движущие силы прогресса в языковых моделях на два фактора: увеличение объема вычислений, используемых для обучения языковых моделей, и алгоритмические инновации.
Результаты исследования показывают, что благодаря усовершенствованиям алгоритмов объем вычислений, необходимый для обучения языковой модели до определенного уровня производительности, сокращается вдвое примерно каждые восемь месяцев.
«Этот результат имеет решающее значение для понимания как исторического, так и будущего прогресса языковых моделей», — говорит Энсон Хо, соавторов работы. «Хотя масштабирование вычислений имеет решающее значение, они все-таки только один из моментов. Чтобы получить полную картину, вам необходимо учитывать невероятный прогресс в изобретении алгоритмов».