SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

SLM схватывают на лету

Справка от ChatGPT

Что такое SLM и LLM

Как они работают

В чем главные плюсы

Рекомендуемые статьи

Как мировая наука и бизнес борются со старением

Rei — проект 196‑метровой круизной яхты от конгломерата Viken Group

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

О том, как научить искусственный интеллект понимать, а не угадывать химию

Многоуровневый функциональный интерьер в духе конструктивистских ячеек XX века

Что и как видит художник и зачем вообще нужны искусствоведы

Подборка пяти великих фильмов о Великой Отечественной

Что может сработать на национальную идею о многодетности?

Ищешь живописное место для фотосессии? Советские фильмы знают ответ!

Правила жизни актера Тома Хэнкса

Colossal Biosciences заявила о планах возродить новозеландских моа

Мы привыкли считать, что делаем осознанный выбор, но так ли это на самом деле?

Справляемся с отпускными кризисными бьюти-ситуациями

О десяти самых знаменитых часах, расположенных в разных частях нашего мира

Инвесторы хотят импортозаместить экзотические фрукты

Фантастический рассказ Владислава Кулигина «Буль-буль»

Каким был длинный и богатый маршрут русского мата

Каких покупателей стараются привлекать торговые центры?

История микроконтроллеров от их зарождения до современных тенденций

Данте обнаружил, осознал, как мало он знает

Что отличает современные музеи? Открытость и исследовательский подход

Палеогенетики секвенировали ДНК похороненных у стен средневекового Болгара

Зоологический музей Московского университета – «отражение самой природы»

Все о снятии шкива коленвала: инструменты, последовательность, как крепится

Статистика неумолима: именно на понедельник приходится пик сердечных приступов

ЗОЖ-аналоги бургеров, шаурмы и не только

История создания кастомной яхты Benetti Kasper 7

Оплата покупок по QR-коду: в чем выгода и в чем подвох

Денис Власенко о «супергеройских» ролях и о том, каково это в возрастном гриме

Зачем текстильные компании выбирают коллаборации как главный способ продвижения