Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
В сосновом бору В сосновом бору

Настоящий гимн природе в интерьере загородного дома в пригороде Новосибирска

SALON-Interior
Книги Книги

Путеводитель по библиографии Лимонова

Esquire
Вечная молодость: 7 легендарных внедорожников, которые выпускались более 20 лет Вечная молодость: 7 легендарных внедорожников, которые выпускались более 20 лет

Автотитаны, которые десятилетиями остаются на конвейере

4x4 Club
«Чистый хайп и маркетинг» «Чистый хайп и маркетинг»

Что такое мемкоин и можно ли на нем заработать

РБК
Разморозка на слух Разморозка на слух

Как усложнится процесс разблокировки зарубежных активов российских инвесторов

Ведомости
Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу» Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу»

Гендиректор МТС Web Services Павел Воронин — об автоматизации и нейросетях

РБК
Что такое ИИ-агент, и чем он отличается от обычной нейросети? Что такое ИИ-агент, и чем он отличается от обычной нейросети?

ИИ-агенты сильно упростят нам жизнь — если, конечно, научатся корректно работать

CHIP
Легендарная крепость викингов — все секреты архитектуры Легендарная крепость викингов — все секреты архитектуры

Датские археологи обнаружили пятую кольцевую крепость викингов

Популярная механика
Список уловок телефонных мошенников: разбираем самые частые способы обмана Список уловок телефонных мошенников: разбираем самые частые способы обмана

Список из самых распространенных атак телефонных мошенников

Maxim
Иностранцы на входе Иностранцы на входе

Как разрабатываются механизмы возвращения иностранного бизнеса в Россию

Ведомости
Почему свистит ремень генератора и как его проверить Почему свистит ремень генератора и как его проверить

Свистит ремень генератора: что делать и как проверить

РБК
«Это место восстановления психики» «Это место восстановления психики»

Исполнительный директор Еврейского музея об инклюзии и арт-терапии

Weekend
Танк на трех колесах: как советские журналисты тестировали мотоцикл-вездеход «Днепр-12» Танк на трех колесах: как советские журналисты тестировали мотоцикл-вездеход «Днепр-12»

Инсайты про «знаменитое советское качество» и особенности вождения «Днепр-12»

ТехИнсайдер
ФНБ лег на депозит ФНБ лег на депозит

Чем обусловлен в последние годы рост средств ФНБ на депозитах?

Ведомости
Австралиец нашел прижизненные фотографии вымершего почти сто лет назад бандикута Австралиец нашел прижизненные фотографии вымершего почти сто лет назад бандикута

Куратор музея обнаружил в архивах черно-белые фотографии бандикута

N+1
Курс на Луну и выше Курс на Луну и выше

Анатолий Петрукович о приоритетах нового нацпроекта по развитию космоса

Монокль
Где дружба — система, а помощь — профессия! Где дружба — система, а помощь — профессия!

Зачем успешным людям идти в благотворительность?

Men Today
Кетчуп и зубная щетка: неожиданные вещи, которые изобрели китайцы Кетчуп и зубная щетка: неожиданные вещи, которые изобрели китайцы

На самом деле китайцы изобрели множество привычных нам вещей

ТехИнсайдер
Токсик, и? Токсик, и?

Илья Соболев об отношениях с адреналином

Men Today
Молодой Цезарь Молодой Цезарь

Карьера Цезаря могла бы оборваться, едва начавшись, равно как и его жизнь...

Знание – сила
Рассказ солдата Рассказ солдата

Воспоминания Георгия Немчинова о войне на передовой

Знание – сила
Варя Семак Варя Семак

Зин по сверхновому искусству Петербурга от художницы Вари Семак

Собака.ru
Жабрей и зябра, они же пикульники Жабрей и зябра, они же пикульники

Пикульники — настоящие джентльмены среди растения, хотя и каждый со своим нравом

Наука и жизнь
Поп-культура Поп-культура

От биологии до поп-культуры: почему женские ягодицы стали фетишем?

Men Today
«Налоговая лазейка» и верные клиенты: как Джеффри Эпштейн сделал свое состояние «Налоговая лазейка» и верные клиенты: как Джеффри Эпштейн сделал свое состояние

Хотите узнать способ, благодаря которому Джеффри Эпштейннакопил свое состояние?

Forbes
Искусство детям Искусство детям

Как говорить с ребенком об искусстве, не усыпив его скучными терминами

Grazia
«Был честен с собой и со своим ремеслом»: каким был путь в искусстве Карла Брюллова «Был честен с собой и со своим ремеслом»: каким был путь в искусстве Карла Брюллова

Каким был путь в искусстве Карла Брюллова и как его показывают в музеях

Forbes
Можно ли плавать в Apple Watch: разбираемся в нюансах умных часов компании Можно ли плавать в Apple Watch: разбираемся в нюансах умных часов компании

Можно ли плавать в Apple Watch? Давайте разбираться. Нюансов здесь хватает

ТехИнсайдер
Генетики подтвердили личность жестоко убитого в Венгрии Рюриковича Генетики подтвердили личность жестоко убитого в Венгрии Рюриковича

Палеогенетики проанализировали геном жестоко убитого венгерского феодала

N+1
Открыть в приложении