Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Нет причин не продлить нашу жизнь до 200 лет и даже до 1000» «Нет причин не продлить нашу жизнь до 200 лет и даже до 1000»

Как мировая наука и бизнес борются со старением

РБК
Круизы: новая глава Круизы: новая глава

Rei — проект 196‑метровой круизной яхты от конгломерата Viken Group

Y Magazine
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Глаз-синхротрон Глаз-синхротрон

О том, как научить искусственный интеллект понимать, а не угадывать химию

Наука и жизнь
Предел функции Предел функции

Многоуровневый функциональный интерьер в духе конструктивистских ячеек XX века

AD
В России художник — пророк В России художник — пророк

Что и как видит художник и зачем вообще нужны искусствоведы

Монокль
От дебюта Тарковского до номинанта «Оскара»: классика о Великой Отечественной От дебюта Тарковского до номинанта «Оскара»: классика о Великой Отечественной

Подборка пяти великих фильмов о Великой Отечественной

Ведомости
Беспроигрышное вложение Беспроигрышное вложение

Что может сработать на национальную идею о многодетности?

Ведомости
В такси на Дубровку В такси на Дубровку

Ищешь живописное место для фотосессии? Советские фильмы знают ответ!

Лиза
Правила жизни Тома Хэнкса Правила жизни Тома Хэнкса

Правила жизни актера Тома Хэнкса

Правила жизни
Colossal возродит новозеландских моа Colossal возродит новозеландских моа

Colossal Biosciences заявила о планах возродить новозеландских моа

N+1
Существует ли на самом деле свобода воли? Наука дает новый ответ на вечный вопрос Существует ли на самом деле свобода воли? Наука дает новый ответ на вечный вопрос

Мы привыкли считать, что делаем осознанный выбор, но так ли это на самом деле?

Inc.
Команда спасателей Команда спасателей

Справляемся с отпускными кризисными бьюти-ситуациями

Moodboard
Легенды со стрелками: 7 знаменитых часов в мире Легенды со стрелками: 7 знаменитых часов в мире

О десяти самых знаменитых часах, расположенных в разных частях нашего мира

ТехИнсайдер
Банановые перспективы российских субтропиков Банановые перспективы российских субтропиков

Инвесторы хотят импортозаместить экзотические фрукты

Агроинвестор
Буль-буль Буль-буль

Фантастический рассказ Владислава Кулигина «Буль-буль»

Знание – сила
От Пушкина до «Твиттера»: как жила и развивалась запрещенная лексика в русской культуре От Пушкина до «Твиттера»: как жила и развивалась запрещенная лексика в русской культуре

Каким был длинный и богатый маршрут русского мата

Maxim
Мужчины придут сами: почему ТЦ не пытаются привлечь самых перспективных покупателей Мужчины придут сами: почему ТЦ не пытаются привлечь самых перспективных покупателей

Каких покупателей стараются привлекать торговые центры?

Forbes
Карманные мозги, что управляют всем: микроконтроллеры от первых 4-бит до IoT-революции Карманные мозги, что управляют всем: микроконтроллеры от первых 4-бит до IoT-революции

История микроконтроллеров от их зарождения до современных тенденций

Наука и техника
Посвящено Беатриче Посвящено Беатриче

Данте обнаружил, осознал, как мало он знает

Наука и жизнь
Сделать посетителя немного исследователем Сделать посетителя немного исследователем

Что отличает современные музеи? Открытость и исследовательский подход

Знание – сила
Генетики выявили мужчин армянского происхождения в средневековом Болгаре Генетики выявили мужчин армянского происхождения в средневековом Болгаре

Палеогенетики секвенировали ДНК похороненных у стен средневекового Болгара

N+1
Архив богини Фауны Архив богини Фауны

Зоологический музей Московского университета – «отражение самой природы»

Знание – сила
Как откручивать шкив коленвала и в какую сторону Как откручивать шкив коленвала и в какую сторону

Все о снятии шкива коленвала: инструменты, последовательность, как крепится

РБК
Почему понедельник – самый опасный день недели? Дело не только в работе Почему понедельник – самый опасный день недели? Дело не только в работе

Статистика неумолима: именно на понедельник приходится пик сердечных приступов

Inc.
Вместо фастфуда Вместо фастфуда

ЗОЖ-аналоги бургеров, шаурмы и не только

Лиза
Под ливнем наград Под ливнем наград

История создания кастомной яхты Benetti Kasper 7

Y Magazine
Быстрый платеж Быстрый платеж

Оплата покупок по QR-коду: в чем выгода и в чем подвох

Лиза
Денис Власенко: «Все-таки мир не черно-белый» Денис Власенко: «Все-таки мир не черно-белый»

Денис Власенко о «супергеройских» ролях и о том, каково это в возрастном гриме

Ведомости
Российский шик с японским акцентом Российский шик с японским акцентом

Зачем текстильные компании выбирают коллаборации как главный способ продвижения

Монокль
Открыть в приложении