Как и зачем исследовать логику нейросетей

N+1Hi-Tech

Внимание, черный ящик. Как и зачем исследовать логику нейросетей

Как и зачем исследовать логику нейросетей

Григорий Копиев

Прогресс в машинном обучении, достигнутый за последнее десятилетие, подарил нам как множество новых возможностей, так и неочевидные проблемы: модели машинного обучения стали настолько сложными и большими, что понять логику их действий все труднее. Вместе с Yandex Research, который проводит исследования машинного обучения мирового уровня, рассказываем, как разработчики изучают современные ML-алгоритмы — и почему это стоит делать, даже если они работают хорошо.

Начало обучения

Нейросети на слуху последние несколько лет. Может показаться, что это новый тип алгоритмов. Отчасти так оно и есть: многие архитектуры нейросетей, успевшие стать классическими, появились лишь несколько лет назад. Но идея повторить в машине принцип работы нейронных сетей была реализована на самой заре машинного обучения.

В конце 1950-х годов Фрэнк Розенблатт описал и реализовал «в железе» перцептрон — простейшую архитектуру искусственных нейросетей, которая заложила основу для современных нейросетей (а многослойные перцептроны широко применяются до сих пор).

Розенблатт показал работу перцептрона, обучив его распознавать знаки и символы, что для 1958 года было серьезным успехом. Но, пожалуй, главное достижение и следствие этого заключалось в укреплении идеи, что для создания машины инженеру не нужно вручную прописывать набор правил — они могут родиться сами в виде весов во время обучения.

В дальнейшем ученые придумывали все новые и новые архитектуры моделей машинного обучения, причем не только нейросетевые. И хотя математические операции внутри моделей по отдельности оставались понятными, их количество и взаимное влияние усложняло анализ работы алгоритмов.

Старший исследователь Yandex Research Андрей Малинин объясняет: «Представьте огромный часовой механизм размером с небоскреб, внутри которого крутятся миллиарды шестеренок размером в ноготь — все красиво крутится, но ничего не понятно. Мы можем посмотреть на какой-то локальный кусочек с парой шестеренок, и вроде ясно, как в нем все работает, но неясно, как это встраивается в механизм в целом».

Современная эра

В 2012 году в развитии машинного обучения наметился прорыв, связанный с нейросетью AlexNet. Это сверточная нейросеть для классификации изображений из датасета ImageNet, в котором содержится более 15 миллионов изображений объектов, разбитых на 22 тысячи категорий. Задача бенчмарка ImageNet — определить класс объекта на фотографии. AlexNet удалось выиграть соревнования ImageNet 2012 года, причем с большим отрывом от ближайшего конкурента: частота ошибок при определении пяти самых вероятных объектов составила 15,3 процента против 26,2 у алгоритма со второго места.

Такой успех можно объяснить несколькими причинами. Во-первых, разработчики улучшили архитектуру нейросети, использовав в качестве функции активации редкую для того времени и повсеместно применяемую сейчас ReLU. Во-вторых, хотя это была большая нейросеть, состоявшая из 650 тысяч нейронов и имевшая 60 миллионов параметров, разработчики нашли способ ускорить ее обучение. Они сумели распараллелить обучение сети на два графических процессора. Это была не первая работа, в которой нейросети предлагали обучать на графических процессорах, но, вероятно, первый заметный пример, который показал другим исследователям, что ограничения по вычислительной мощности, сдерживавшие развитие этой области, можно обойти. А значит, размеры моделей и обучающих датасетов можно смело увеличивать.

Спустя шесть лет исследователи из OpenAI проанализировали ключевые работы в области нейросетей и показали, что именно с AlexNet в 2012 году начался рост затрачиваемой на обучение вычислительной мощности. Если раньше она удваивалась каждые два года, следуя закону Мура, то с 2012 года удвоение происходило уже каждые 3–4 месяца. Благодаря такой четкой временной границе OpenAI предложила называть период после 2012 года «современной эрой».

Рост объема вычислений, проводимых при обучении моделей машинного обучения. На графике можно увидеть резкую смену тренда в 2012 году — начало «современной эры». OpenAI

Вместе с увеличением размера нейросетей менялись и подходы к обучению. Стало набирать популярность обучение без учителя на неразмеченных данных.

Хороший пример такого подхода — нейросети GPT, разработанные в OpenAI. Это модели генерации текста, задача которых сводится к предсказанию следующего слова в предложении. Это позволяет писать большие тексты, которые выглядят как результат работы человека, а не машины. Разработчики GPT решили уйти от обучения на ограниченных датасетах с размеченными текстами к самообучению на гигантском объеме самых разных текстов из интернета: GPT-3 обучили на 570 гигабайт текстов. Это позволило модели выучить структуру языка, после чего ее можно быстро дообучить для конкретной задачи, например генерации стихов в стиле любимого поэта, показав всего несколько примеров, а не собирая новый большой датасет.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Гуннов вновь назвали носителями енисейских языков Гуннов вновь назвали носителями енисейских языков

Хунну и гунны, возможно, говорили на одном из енисейских языков

N+1
Два фактора ожирения, о которых мало говорят: мнение эксперта Два фактора ожирения, о которых мало говорят: мнение эксперта

Факторы, которые постоянно упускаются при лечении ожирения

ТехИнсайдер
Опасная иллюзия: почему не стоит путать искусственный интеллект с чат-ботами Опасная иллюзия: почему не стоит путать искусственный интеллект с чат-ботами

ИИ — спаситель человечества или его зловещий повелитель?

Forbes
«Костыль для общения»: можно ли построить отношения без манипуляций «Костыль для общения»: можно ли построить отношения без манипуляций

Попробуем разобраться, можно ли построить отношения без манипуляции

Psychologies
Психология стресса Психология стресса

Нашумевшее руководство по борьбе со стрессом и связанными с ним болезнями

kiozk originals
Как не нужно делать: оказалось, что опытные Как не нужно делать: оказалось, что опытные

Опыт — не главный критерий, когда речь заходит об общении кошки и человека

ТехИнсайдер
20 способов испортить окружающим людям весь кайф 20 способов испортить окружающим людям весь кайф

Рассказываем о самых циничных способах не дать людям получить наслаждение

Maxim
Почему легкие свистят и стоит ли переживать по этому поводу? Почему легкие свистят и стоит ли переживать по этому поводу?

Свистящее дыхание — обычное явление, с которым сталкивается большинство из нас

ТехИнсайдер
Как бережно подталкивать людей к изменениям Как бережно подталкивать людей к изменениям

Действительно, влиять на других людей очень сложно, но это умение можно развить

Psychologies
Опасные люди: как их распознать, если они кажутся «нормальными» Опасные люди: как их распознать, если они кажутся «нормальными»

Опаснее всего не явные тираны, а те, кто поначалу кажутся нормальными

Psychologies
Соберись, тряпка: как создать успешный и социально значимый бизнес на ненужных вещах Соберись, тряпка: как создать успешный и социально значимый бизнес на ненужных вещах

Из старой одежды можно сделать не только ветошь, но и синтетическое топливо

Forbes
Как развить самодисциплину всего за 5 минут в день Как развить самодисциплину всего за 5 минут в день

Как пустяковые полезные привычки могут привести тебя к большим свершениям

Maxim
Позитивный пиар при небольших инвестициях: почему бренды поддерживают женский спорт Позитивный пиар при небольших инвестициях: почему бренды поддерживают женский спорт

Женский спорт созрел для серьезной монетизации

Forbes
Выбираем электроотвертку: мини-шуруповерт для работ по дому Выбираем электроотвертку: мини-шуруповерт для работ по дому

На какие особенности обратить внимание при выборе электроотвертки?

CHIP
Как выбрать весы для кухни: простая инструкция Как выбрать весы для кухни: простая инструкция

Какие детали надо учесть, чтобы выбрать лучшие весы для кухни?

CHIP
Обзор Keyran: программы для создания и запуска макросов Обзор Keyran: программы для создания и запуска макросов

Макросы можно использовать как в играх, так и в обычной жизни

CHIP
10 научных фактов о фильме «День независимости» 10 научных фактов о фильме «День независимости»

Кинофильм, запрещенный на планетах, где нет чувства юмора

Maxim
Как сегодня выглядит блондинка Габриэль из любимого сериала 90-х Как сегодня выглядит блондинка Габриэль из любимого сериала 90-х

Как сложилась жизнь "Габриэль" Рене О`Коннор?

VOICE
Стоит ли продвигать бизнес с помощью личного бренда: история функционального печенья BIKKI Стоит ли продвигать бизнес с помощью личного бренда: история функционального печенья BIKKI

Как личный бренд поможет сократить бюджет на маркетинг

VC.RU
Скорость взаимодействия ридберговских кубитов приблизили к фундаментальному пределу Скорость взаимодействия ридберговских кубитов приблизили к фундаментальному пределу

Японским физикам удалось добиться обмена энергией между кубитами

N+1
Как произвести замену двигателя и оформить ее в ПТС Как произвести замену двигателя и оформить ее в ПТС

Какие моменты нужно учесть при замене мотора?

РБК
Маневрируем в позе «зю»: разбираем главные стереотипы о балансе карьеры и материнства Маневрируем в позе «зю»: разбираем главные стереотипы о балансе карьеры и материнства

Тема совмещения материнства и карьеры давно набила оскомину

Forbes

Страхи в постели часто вообще никак не связаны с реальным положением дел

VOICE
О чем говорит цвет выделений из носа О чем говорит цвет выделений из носа

Носовая слизь может менять цвет и текстуру в зависимости от причины ее появления

ТехИнсайдер
Квантовые блуждания атомов помогли искать с оракулом Квантовые блуждания атомов помогли искать с оракулом

Экспериментально реализовали квантовые блуждания нейтральных атомов стронция-88

N+1
Что появилось раньше: мышечный орган в ротовой полости или речь? И вообще, почему язык прозвали языком? Что появилось раньше: мышечный орган в ротовой полости или речь? И вообще, почему язык прозвали языком?

Орган или речь — кто был первым?

ТехИнсайдер
Послевоенные преступления Послевоенные преступления

Жан-Пьер Мельвиль и его нуары

Weekend
Культ успеха: откуда взялись «инфоцыгане» и почему их марафоны так популярны? Культ успеха: откуда взялись «инфоцыгане» и почему их марафоны так популярны?

Чем последователи «успешного успеха» так сильно похожи на сектантов

Maxim
Что крадут наши эмоции: 7 фактов Что крадут наши эмоции: 7 фактов

Факты о негативном влиянии эмоций на нашу жизнь

Psychologies
Умерли в один день: история арабской принцессы, казненной в 1977 году вместе с возлюбленным Умерли в один день: история арабской принцессы, казненной в 1977 году вместе с возлюбленным

В реальности история принцессы "Жасмин" была совсем другой

VOICE
Открыть в приложении