Новый способ оптимизации предварительного обучения Больших языковых моделей

ТехИнсайдерHi-Tech

Разработан более дешевый способ обучения Больших языковых моделей

Команда ученых из Стэнфорда разработала новый способ оптимизации предварительного обучения Больших языковых моделей, который в два раза быстрее, чем существующие подходы. Это позволит значительно удешевить разработку Больших языковых моделей и сделать их создание более доступным независимым разработчикам.

Владимир Губайловский

ce9cebf76db8bc7877647f1250420a14_ce_1974x1316x0x83.jpg
Unsplash.com. DeepMind

Цель таких работ — сделать Большие языковые модели (такие как GPT), требующие миллионы на обучение, работающие на мощнейших компьютерах с огромными дата-центрами, доступными на домашнем компьютере или смартфоне. И разработчики двигаются в этом направлении.

Команда ученых из Стэнфорда разработала новый способ оптимизации предварительного обучения Больших языковых моделей, который в два раза быстрее, чем существующие подходы.

ChatGPT и другие приложения, использующие Большие языковые модели (LLM), находят все более широкое применение и привлекают пристальное внимание СМИ. Однако в сфере LLM доминируют несколько крупных технологических компаний, поскольку предварительное обучение этих моделей является чрезвычайно дорогостоящим процессом: стоимость начинается с 10 миллионов долларов. Сколько стоило обучение GPT не сообщается, но оценить его в миллиард долларов не будет серьезным преувеличением.

«Большие языковые модели не очень-то доступны для небольших организаций или академических групп», — говорит Хонг Лю, аспирант факультета информатики Стэнфордского университета.

Чтобы изменить ситуацию, Лю и его коллеги решили усовершенствовать существующие методы оптимизации LLM. В результате был разработан подход под названием Sophia, который сокращает время предварительного обучения вдвое. 

Оптимизация оптимизации

507231df3ff536c824bc47835115b915.jpg
Unsplash.com. DeepMind

Чтобы оптимизировать предварительное обучение LLM ученые использовали два приема. Первый, известный как оценка кривизны, не нов, но команда Стэнфорда нашла способ сделать его более эффективным.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Вселенная распадется через 10^78 лет, это гораздо быстрее предыдущих оценок Вселенная распадется через 10^78 лет, это гораздо быстрее предыдущих оценок

Вселенная распадается гораздо быстрее, чем считалось ранее

ТехИнсайдер
Удивят, отвратят, напугают, просветят: 7 необычных книг для интеллектуалов Удивят, отвратят, напугают, просветят: 7 необычных книг для интеллектуалов

Тру-стори о лондонском приюте, мрачный артхаус о любви и притчи из Вавилона

ТехИнсайдер
Обновления нарочно ломают наши телефоны и еще 9 мифов о гаджетах Обновления нарочно ломают наши телефоны и еще 9 мифов о гаджетах

10 самых распространенных мифов об электронных устройствах

Maxim
Семь чудес Семь чудес

Места России, которые вполне могли бы стать новыми чудесами света

Men Today
Как путешествия меняют нас: 5 не заметных глазу трансформаций Как путешествия меняют нас: 5 не заметных глазу трансформаций

Как путешествия влияют на наше ментальное и физическое здоровье?

ТехИнсайдер
История великой династии: как искал жену Михаил Феодорович Романов История великой династии: как искал жену Михаил Феодорович Романов

Глава из книги «Романовы. История великой династии» о Михаиле Романове

Forbes
Как в русском фольклоре появились русалки? Как в русском фольклоре появились русалки?

Кого на Руси называли русалками?

Культура.РФ
Почему картошка фри в Почему картошка фри в

В картошке фри из "Макдоналдса" есть секретный ингредиент

ТехИнсайдер
Мал да удал: у сенокосцев обнаружили три вида самцов с уникальной стратегией размножения Мал да удал: у сенокосцев обнаружили три вида самцов с уникальной стратегией размножения

У редкого вида паукообразных существует три разных типа самцов

ТехИнсайдер
Лучшие платформеры на ПК: топ-10 проектов в 2023 году Лучшие платформеры на ПК: топ-10 проектов в 2023 году

10 лучших игр-платформеров в 2023 году на ПК

CHIP
Секреты китайского автомира. Что полезно знать о машинах из Поднебесной Секреты китайского автомира. Что полезно знать о машинах из Поднебесной

Как Китай поставляет нам машины уже прямиком из будущего

СНОБ
Не плагиат, а референс: зачем соцсети перенимают функции друг у друга, почему это работает и чего ждать дальше Не плагиат, а референс: зачем соцсети перенимают функции друг у друга, почему это работает и чего ждать дальше

Почему соцсети копируют решения друг друга и что это меняет для пользователей?

Правила жизни
Температура видеокарты: какой она должна быть, и как бороться с перегревом Температура видеокарты: какой она должна быть, и как бороться с перегревом

До какой предельной температуры может нагреваться видеокарта?

CHIP
«Папа пробрался в шоу-бизнес лучше мамы»: дочь Глюкозы рассказала, кто помогает ей в карьере «Папа пробрался в шоу-бизнес лучше мамы»: дочь Глюкозы рассказала, кто помогает ей в карьере

16-летняя дочь Глюк’оZы пошла по ее стопам

VOICE
Пластиковая красота. Почему винтажные Барби разрушаются и как их спасти Пластиковая красота. Почему винтажные Барби разрушаются и как их спасти

Какой процесс неумолимо сокращает жизнь Барби и можно ли его остановить?

СНОБ
5 причин заниматься пилатесом в любом возрасте 5 причин заниматься пилатесом в любом возрасте

Какие бонусы для здоровья пилатес дает в разном возрасте?

Правила жизни
Гордые невесты и «мужественные» жены: какими были женщины эпохи викингов Гордые невесты и «мужественные» жены: какими были женщины эпохи викингов

Рассказываем о жизни, быте и положении в обществе женщин эпохи викингов

Forbes
Продуктивность в 2023 году: как быть эффективнее на работе и меньше отвлекаться Продуктивность в 2023 году: как быть эффективнее на работе и меньше отвлекаться

Как прокачать свою личную эффективность?

Maxim
За сколько можно купить или продать Землю За сколько можно купить или продать Землю

Сколько же стоит наша планета?

ТехИнсайдер
Женский саботаж Женский саботаж

5 способов не убить отношения в самом начале

Лиза
ИИ «дурачит» ученых, придумывая данные. Но такие данные могут упростить обучение самого ИИ ИИ «дурачит» ученых, придумывая данные. Но такие данные могут упростить обучение самого ИИ

ИИ расширяет реальность. В буквальном смысле

ТехИнсайдер
Что такое глютен: мифы и правда Что такое глютен: мифы и правда

Что такое глютен и может ли он причинить вред?

РБК
Как диснеевские принцессы влияют на психику детей: 4 мультфильма глазами психологов Как диснеевские принцессы влияют на психику детей: 4 мультфильма глазами психологов

От чего зависит то, какое влияние окажет на ребенка мультфильм?

Psychologies
5-аминолевулиновая кислота помогла дрозофилам с дефектом дыхательной цепи выработать АТФ 5-аминолевулиновая кислота помогла дрозофилам с дефектом дыхательной цепи выработать АТФ

Открытие, которое может помочь в лечении митохондриальных нарушений

N+1
Нерожденный ребенок: как пережить прервавшуюся беременность Нерожденный ребенок: как пережить прервавшуюся беременность

Правил, которые помогут пережить прервавшуюся беременность и сохранить здоровье

Psychologies
Умиротворение Умиротворение

В августе 1940 года немецкие самолеты совершили первый налёт на Великобританию

Дилетант
Перенос вагинальной микробиоты детям после кесарева сечения улучшил их нервно-психическое развитие Перенос вагинальной микробиоты детям после кесарева сечения улучшил их нервно-психическое развитие

Перенос вагинальной микробиоты детям улучшил их нервно-психическое развитие

N+1
Как ликерные вина стали самой многострадальной категорией российского виноделия Как ликерные вина стали самой многострадальной категорией российского виноделия

Мы живем в стране победившего портвейна

Forbes
От блокбастеров до острой курицы: как голливудский продюсер развивает сферу общепита От блокбастеров до острой курицы: как голливудский продюсер развивает сферу общепита

Продюсер Джон Дэвис развивает рестораны формата fast casual

Forbes
Домашний фитнес Домашний фитнес

Как встать с дивана и заставить себя заниматься

Лиза
Открыть в приложении