Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

С огоньком: что стимулирует рынок внутреннего туризма С огоньком: что стимулирует рынок внутреннего туризма

Поездки на уик-энд, отдых на природе и фестивали — рецепт успешного турсезона

РБК
Компьютерное зрение: когда роботы перестали тыкать пальцем в небо? Компьютерное зрение: когда роботы перестали тыкать пальцем в небо?

Зачем нужно компьютерное зрение и какие задачи оно решает в разных сферах

Наука и техника
Марксизм и искусственный интеллект Марксизм и искусственный интеллект

Почему ИИ не только научно-технический, но социально-экономический феномен

Монокль
Переходим на летнее время Переходим на летнее время

7 актуальных задач, которые легче решить под ярким солнцем

Лиза
7 неверных установок 7 неверных установок

Они накрепко засели у нас голове еще с детства – и сильно отравляют жизнь

Лиза
Почему машина заводится и глохнет и что с этим делать Почему машина заводится и глохнет и что с этим делать

Что делать, если машина глохнет: причины, диагностика, куда смотреть

РБК
Развод и утрата: как справиться с последствиями Развод и утрата: как справиться с последствиями

Как утрата влияет на наше психологическое состояние?

VOICE
«Нет удержу!» Чем улыбнул первый тест-драйв «ушастого Запорожца», проведенный советским журналистом «Нет удержу!» Чем улыбнул первый тест-драйв «ушастого Запорожца», проведенный советским журналистом

«Ушастый Запорожец» — тесный, шумный, тихоходный или совсем иной?

ТехИнсайдер
Финкульт-привет Финкульт-привет

Низкая финграмотность — вызов не только для клиентов, но и для банков

Ведомости
Фарш из надежд. Почему искусственное мясо проиграло натуральному Фарш из надежд. Почему искусственное мясо проиграло натуральному

Есть ли будущее у искусственного мяса?

Inc.
Группы, в которых не менялся состав. Никогда Группы, в которых не менялся состав. Никогда

Группы, в которых состав отличается своей стабильностью

Maxim
Есть на что строить Есть на что строить

Зачем создавать отдельный механизм финансирования — инфраструктурные облигации?

Монокль
Самый секретный агент Самый секретный агент

Из чего сделан мир Джеймса Бонда Яна Флеминга

Weekend
Любовь, сбивающая с ног: 10 культовых фильмов про свадьбы Любовь, сбивающая с ног: 10 культовых фильмов про свадьбы

Фильмы о свадьбе, которые заставят вас смеяться и плакать

Правила жизни
Испанские авианосцы на мировом рынке Испанские авианосцы на мировом рынке

Что помогло определиться с основными требованиями к универсальному авианосцу

Наука и техника
Все в театр Все в театр

В Москве стартовал «Театральный бульвар», и он станет самым продолжительным

Ведомости
Кризис нэпа Кризис нэпа

100 лет тому назад страна жила в атмосфере «правого коммунизма»

Дилетант
Михаил Бахтин Михаил Бахтин

Зачем Бахтин понадобился Андропову и почему он так известен в Европе и Штатах?

Дилетант
Он лгал и учил лгать Он лгал и учил лгать

«Мы не знаем страны, в которой живем». А знаем ли мы Юрия Андропова?

Дилетант
Без диплома, но с работой Без диплома, но с работой

Почему студенты колледжей бросают учебу?

Ведомости
Хакеры пошли на завод Хакеры пошли на завод

Хакеры продолжают атаки на промышленные предприятия, их цель — шпионаж

Ведомости
Перспективы энергоскладов: как мы будем хранить электричество Перспективы энергоскладов: как мы будем хранить электричество

Какие надежные способы аккумулировать значительные объемы энергии существуют?

Монокль
Будет не жирно? Будет не жирно?

Какой вклад в борьбу с ожирением могут внести производители продуктов питания

Агроинвестор
Не женское дело? Не женское дело?

Еще 20–30 лет назад женщина-режиссёр воспринималась как нечто исключительное

Дилетант
«Почему вы хотите завоевать весь мир?» «Почему вы хотите завоевать весь мир?»

Страх ядерной войны между США и СССР был настолько высок, что передался детям

Дилетант
Анекдотные коменданты Анекдотные коменданты

Генералы Башуцкий и Мартынов прославились как коллективный персонаж анекдотов

Дилетант
Седан XPeng P7 сжег мосты консервативного дизайна: самый смелый рестайлинг в истории китайского автопрома Седан XPeng P7 сжег мосты консервативного дизайна: самый смелый рестайлинг в истории китайского автопрома

Готов ли рынок к седану, который выглядит как артефакт из будущего?

ТехИнсайдер
Запах города Запах города

Аромастилист о том, как не ошибиться в выборе парфюмерного гардероба

ЖАРА Magazine
«Мадагаскару» — 20! Как создавалась мультфраншиза, заработавшая миллиарды и разлетевшаяся на мемы «Мадагаскару» — 20! Как создавалась мультфраншиза, заработавшая миллиарды и разлетевшаяся на мемы

«Мадагаскар»: след в истории и головокружительный успех

Правила жизни
Горят ли окна в министерстве обороны? Горят ли окна в министерстве обороны?

Чем так напугали Кремль «американские военные планы»?

Дилетант
Открыть в приложении