Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

От полицейских собак до «умных» хирургов От полицейских собак до «умных» хирургов

Как устроена мировая робототехника и какие модели стали хитами отрасли

РБК
Как скопировать и вставить таблицу в Экселе Как скопировать и вставить таблицу в Экселе

Как скопировать таблицу в Эксель так, чтобы все осталось на своих местах

CHIP
Андрей Бершадский: «У профессионального управляющего нет хрустального шара» Андрей Бершадский: «У профессионального управляющего нет хрустального шара»

Гендиректор УК «Первая» — о ситуации на российском фондовом рынке

РБК
Спаривание черного ягуара впервые запечатлели в природе Спаривание черного ягуара впервые запечатлели в природе

Самка-меланистка совокупилась с пятнистым самцом в одном из национальных парков

N+1
Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу» Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу»

Гендиректор МТС Web Services Павел Воронин — об автоматизации и нейросетях

РБК
Аграрий 2.0: 10 профессий, показывающих, как технологии меняют сельское хозяйство Аграрий 2.0: 10 профессий, показывающих, как технологии меняют сельское хозяйство

От сити-фермеров до агроинженеров — спектр новых профессий впечатляет

Maxim
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
«Если вы не занимаетесь пиаром, им займется ваш конкурент». Как работает PR-агентство для девелоперов «Если вы не занимаетесь пиаром, им займется ваш конкурент». Как работает PR-агентство для девелоперов

Зачем девелоперам личные блоги и wellness-мероприятия?

Inc.
Открывая космос Открывая космос

Путеводитель женщины-астронавта по миру миссий, чудес и перемен в космосе

kiozk originals
Скоро на экранах Скоро на экранах

Кем могли бы стать молодые актеры, если бы выбрали другую профессию?

Grazia
Баталовы Баталовы

Алексей Баталов мог достичь успеха где угодно, но остался верен кино

Караван историй
Дорогой лапши Дорогой лапши

Китайская лапша давно свернула с Великого шелкового пути

Seasons of life
Дышать или не дышать: насколько эффективна дорогостоящая ксенонотерапия Дышать или не дышать: насколько эффективна дорогостоящая ксенонотерапия

Ксенонотерапия: что это за метод, безопасен ли он и насколько полезен в лечении?

Forbes
Санчо Панса языка Санчо Панса языка

На курсах литературного мастерства учат не разводить словесные кружева

Seasons of life
День мира День мира

Наш проект «День мира» родился из истории, начавшейся почти сто лет назад

Seasons of life
Как справиться с текучестью кадров Как справиться с текучестью кадров

Как эффективно работать с персоналом и уменьшить риск ухода сотрудников

Inc.
Танец не маленьких журавлей Танец не маленьких журавлей

Как подобраться к крайне осторожным серым журавлям поближе?

Наука и жизнь
Вот так кульбаба! Вот так кульбаба!

Пик жизни кульбабы наступает именно тогда, когда все уже готовятся к зиме

Наука и жизнь
Как продлить жизнь букету цветов: актуальный лайфхак к 1 сентября Как продлить жизнь букету цветов: актуальный лайфхак к 1 сентября

Как продлить жизнь растениям в вазе с научной точки зрения?

ТехИнсайдер
Колледж учит жизни Колледж учит жизни

Куда идут работать после выпуска из учебного заведения выпускники колледжей

Ведомости
Ищу квартиру Ищу квартиру

Как не разориться при съеме жилья и на что обратить особое внимание?

Лиза
Продукты, которые могут оказаться опасными, если приготовить их неправильно Продукты, которые могут оказаться опасными, если приготовить их неправильно

Если неправильно приготовить эти блюда, последствия могут быть серьезными!

ТехИнсайдер
Отели Отели

Отели, которым нет равных, для самых взыскательных гостей

RR Люкс.Личности.Бизнес.
От Голливуда до слухов про лоботомию: печальная история успеха Фрэнсис Фармер От Голливуда до слухов про лоботомию: печальная история успеха Фрэнсис Фармер

Правда о трагедии женщины, чей образ исказили газетные мифы

ТехИнсайдер
Миллиард на неконтролируемом шуме Миллиард на неконтролируемом шуме

Звукоизоляция остаётся слабым местом новостроек

Монокль
Тбилисские гости Тбилисские гости

«Наша жизнь состоит из моментов, когда ты встречаешься с друзьями»

Seasons of life
Уплотнение экономического пространства Уплотнение экономического пространства

Почему нужно ускорять транспортное сообщение с Сибирью и Дальним Востоком

Деньги
Nkeeei: «Хочется в темпе событий успевать по-человечески жить» Nkeeei: «Хочется в темпе событий успевать по-человечески жить»

Музыкант nkeeei — о сольном творчестве и работе вместе с uniqe и ARTEM SHILOVETS

ЖАРА Magazine
«Холодный мир – это наше достояние» «Холодный мир – это наше достояние»

Что такое криосфера? Можно ли использовать знания о ней в повседневной жизни?

Знание – сила
Вместо дефолта — неукротимая инфляция Вместо дефолта — неукротимая инфляция

Мир продолжает жить в кредит, но менять никто ничего не планирует, да и не может

Монокль
Открыть в приложении