Разработан более дешевый способ обучения Больших языковых моделей

Команда ученых из Стэнфорда разработала новый способ оптимизации предварительного обучения Больших языковых моделей, который в два раза быстрее, чем существующие подходы. Это позволит значительно удешевить разработку Больших языковых моделей и сделать их создание более доступным независимым разработчикам.

Владимир Губайловский

Цель таких работ — сделать Большие языковые модели (такие как GPT), требующие миллионы на обучение, работающие на мощнейших компьютерах с огромными дата-центрами, доступными на домашнем компьютере или смартфоне. И разработчики двигаются в этом направлении.

ChatGPT и другие приложения, использующие Большие языковые модели (LLM), находят все более широкое применение и привлекают пристальное внимание СМИ. Однако в сфере LLM доминируют несколько крупных технологических компаний, поскольку предварительное обучение этих моделей является чрезвычайно дорогостоящим процессом: стоимость начинается с 10 миллионов долларов. Сколько стоило обучение GPT не сообщается, но оценить его в миллиард долларов не будет серьезным преувеличением.

«Большие языковые модели не очень-то доступны для небольших организаций или академических групп», — говорит Хонг Лю, аспирант факультета информатики Стэнфордского университета.

Чтобы изменить ситуацию, Лю и его коллеги решили усовершенствовать существующие методы оптимизации LLM. В результате был разработан подход под названием Sophia, который сокращает время предварительного обучения вдвое.

Оптимизация оптимизации

Чтобы оптимизировать предварительное обучение LLM ученые использовали два приема. Первый, известный как оценка кривизны, не нов, но команда Стэнфорда нашла способ сделать его более эффективным.

Разработан более дешевый способ обучения Больших языковых моделей

Оптимизация оптимизации

Рекомендуемые статьи

Почему одни застревают в самоосуждении, а другие находят способ простить себя?

Эти упражнения — ложные друзья каждого ЗОЖника

Какие «суперспособности» станут реальностью уже к 2030 году — и какой ценой?

Насколько безопасны новые инъекции для похудения?

Можно ли плавать в Apple Watch? Давайте разбираться. Нюансов здесь хватает

Банкротству Детройта в США исполнилось 10 лет

Ученые нашли группу клеток, активация которых полностью останавливает движение

Роман Аранин развивает в Калининграде доступную среду для людей с инвалидностью

Что такое индивидуальная самоидентификация семьи?

Как волонтерство помогает поддерживать когнитивные способности на пенсии

Eurobot: как проходит европейский турнир по робототехнике

Журналисты сообщили, что молодая мама из США решила избавиться от своего ребенка

Разбираем главные песни Элтона Джона

Как погиб Джанни Версаче?

Почему мужчины часто недолюбливают женские посиделки? Чего они боятся?

Вдыхание стопроцентного кислорода улучшает моторное обучение человека

«Блажь»: роуд-муви, в котором метафоры побеждают кино

Режиссер Игорь Твердохлебов о своем главном достижении последнего года

Китай одним из первых вводит ограничения для развития ИИ

Чем занимаются китайские космонавты на своей орбитальной станции?

Добрые, милые, уютные истории, которые заставят переживать, но кончатся хорошо

10 лучших игр-платформеров в 2023 году на ПК

Даже на обычной даче можно создать атмосферу Средиземноморья

16 фактов про «Yellow Submarine»

Керны со дна залива Святой Евфимии восстановила картину падения Римской империи

Поговорка «Кому – арбуз, а кому – свиной хрящик» не лишена смысла

Портрет Владимира Маяковского в десяти словах из его стихов

Почему в мире перерабатывается менее 1% текстильных отходов?

«В другом мире. Заметки 2014-2017» — это сборник эссе искусствоведа и куратора

С каким багажом Эйнштейн приехал в Берн и как он шел к своему «году чудес»