Искусственный интеллект: что он может и чего не может

Технологии искусственного интеллекта находятся на стадии быстрого повсеместного внедрения. Но чтобы отличать перспективные решения от хайповой халтуры, потребителю следует понимать их актуальные и принципиальные ограничения

Виталий Лейбин

В московском метрополитене заработала система распознавания лиц, благодаря которой можно проходить через турникеты, не используя проездной: система узнает пассажира и сама спишет деньги с его карточки. Подобные системы следят за соблюдением правил безопасности на предприятиях «Росатома», они умеют фиксировать потенциальные их нарушения. Беспилотные доставщики и автомобили «Яндекса» в тестовом режиме уже курсируют в городах России и мира. Голосовые помощники заменили банковских операторов и уже не только занимают болтовней детей и взрослых, но и эволюционируют в полезных универсальных помощников. Электронные переводчики научились переводить не хуже, чем средний человек-переводчик, а скоро будут помогать общаться по видеосвязи с теми, чьего языка вы не знаете. Все это наглядное применение того, что принято называть искусственным интеллектом (ИИ).

Прогресс в использовании ИИ такой большой, что бизнес, государство и другие потребители стремятся внедрить технологии искусственного интеллекта во все сферы экономики. Но с очень разным успехом.

«Развитию искусственного интеллекта мешает халтура, море работ по искусственному интеллекту, примерно 95 процентов из этого, не представляет собой вообще ничего, — говорит член-корреспондент РАН, завкафедрой когнитивных технологий МФТИ, заведующий отделением ФИЦ «Информатика и управление» РАН, член-корреспондент РАН, директор по науке компании Smart Engines Владимир Арлазаров. — У нас же целые программы по искусственному интеллекту. Постановление правительства, указ президента, постановление президиума Академии наук, чего только нет. Это неплохо, это безусловно работает на прогресс области, потому что туда вливаются деньги, но когда все поле замусорено, это мешает».

Несмотря на хайп и информационную замусоренность сферы, прогресс очевиден: все меньше остается сфер, где ИИ еще не применяется. Но, как и у любой технологии, есть ограничения и специфика. «Эксперт» вместе со специалистами в науке об искусственном интеллекте попытался обозначить самые актуальные тренды и фундаментальные проблемы в отрасли, что он может и чего не может уже сейчас и где следующий шаг развития.

Что он может

Если бы не только «человеческим» ученым, но и искусственному интеллекту уже давали Нобелевскую премию, ее, как считает директор по фундаментальным исследованиям Artificial Intelligence Research Institute, заведующий лабораторией нейронных систем и глубокого обучения МФТИ Михаил Бурцев, могла бы получить AlphaFold от компании DeepMind. «Это самый большой прорыв в науке прошлого года. Кстати, в этой работе был задействован аспирант из России, мой ученик Михаил Фигурнов», — подтверждает тезис профессор факультета компьютерных наук НИУ ВШЭ, заведующий Центром глубинного обучения и байесовских методов Дмитрий Ветров.

Задача предсказания структуры белков по их последовательности, которую в прошлом году решил AlphaFold, — одна из базовых в молекулярной биологии, причем на ее решении можно проиллюстрировать различия в работе человеческого и машинного интеллекта в его нынешнем виде.

В генах записана наследственная информация в форме текста молекулы ДНК. Эта информация не только наследуется, но и проявляется в реальных организмах за счет того, что текст генов считывается, один ген чаще всего кодирует какой-нибудь один белок. Из белков состоит практически все живое — это строительный материал клеток, сигнальные молекулы и ферменты, которые управляют химическими процессами в клетке. В процессе транскрипции четырехбуквенный генетический код переводится в 22-буквенный язык аминокислот, из которых состоят белки. Этот код был расшифрован еще в 1960-е годы, с тех пор, казалось бы, мы должны были понимать, что именно и как делает каждый ген. Но проблема в том, что белок — это не просто нитка полимера, состоящего из аминокислот, как-то болтающаяся в пространстве. Чтобы белок работал, он должен свернуться в очень жесткую квазикристаллическую структуру. Его форма, не только химический состав, определяет функцию белка, он должен подойти к своей химической мишени, как ключ к замку. За прошедшие десятилетия физики белка сделали множество открытий, стало многое понятно про то, как из текста появляется упорядоченный элемент жизни. Например, Алексей Финкельштейн из пущинского Института белка вместе с коллегами теоретически разрешили важнейший парадокс: если бы сам белок в растворе перебирал все возможные варианты своей структуры и «выбирал» оптимальную по энергии (как это делает любая химическая молекула), он никогда бы не нашел свою форму. На этот процесс для короткого белка из 100 аминокислот ушло бы 1080 лет, а столько не живут. Но оказалось, что молекула белка находит энергетический минимум не перебором, она «знает» путь через локальные «вторичные» структуры к общему результату.

Несмотря на достижения физики белка, задача предсказания структуры белка до сих пор в общем виде решена не была, хотя разные подходы подбирались очень близко. Для определения структуры белков приходилось проводить сложнейшие эксперименты для кристаллизации белков, рентгенографирования и определения структур методом ядерно-магнитного резонанса. В конце концов расшифрованных структур накопилось столько, что искусственный интеллект, научившийся на них, может с высокой точностью их предсказывать, ИИ учился на известных 170 тыс. белках, про которые были известны и их последовательность, и структура, то есть на уже решенных примерах, но при этом отлично предсказывает структуры белков, для которых в базе не было близких аналогов. Работа физиков на протяжении десятилетий все еще имеет теоретическую ценность, но практический вопрос машина закрыла. AlphaFold не расскажет, как именно белки находят свою структуру, но он может ее рассчитать.

И это уже имеет множество практических применений. Например, заведующий лабораторией геномной инженерии МФТИ, директор Института персонализированной медицины Национального медицинского исследовательского центра эндокринологии Павел Волчков и его коллеги использовали (см. «Поколение генетически неуязвимых», «Эксперт» № 36 за 2021 год) предсказание структуры искусственно измененных белков оболочки ассоциированного вируса, для того чтобы сделать максимально эффективный вектор (переносчик генетической информации в организм) для генной терапии.

На этом фоне очевидный и заметный прогресс, например, в сфере управления беспилотным транспортом, в том числе «Яндекса», Сбера и КамАЗа, выглядит как решение сложной, но давно известной задачи. Самое сложное в беспилотном транспорте — это модель, которая «видит и понимает» окружающий мир в реальной ситуации, не на картинках, на которых ИИ прогрессировал в последние полтора десятилетия, и эта задача вполне решена, а после того, как ситуация определена, принять решения может и простой алгоритм («видишь пешехода — тормози»). И эта задача решается обучением в реальных ситуациях, и именно сейчас это происходит.

Чего он не может

Искусственный интеллект по-прежнему ограничен в применении, но часть этих ограничений непринципиальны и будут быстро сниматься. Есть инженерные проблемы, связанные, например, с тем, что вычислительные мощности стоят дорого и их нужно все больше, что не во всех сферах накоплено большое количество «размеченных» (понятных для машины) данных, на которых она может учиться.

«Увеличение размера модели — это тренд, — говорит Дмитрий Ветров. — Но тут все упирается в возможности техники. Сейчас пытаются делать распределенные сети, когда одна нейросеть на нескольких компьютерах, но тогда мы упираемся во время — слишком много времени требуется для переброски информации сотен тысяч операций с одного компьютера на другой. На нескольких компьютерах нейросеть обучалась бы годами. Поэтому, как только появляются компьютеры с большей памятью, сразу же появляются нейросети большего размера».

Современному ИИ нужны все большие объемы данных, согласно теории машинного обучения, модели должны страдать от переобучения, когда увеличение данных с какого-то порога ухудшает результат. Но именно в нейросетевых моделях этого почему-то не происходит, и ученые работают над новой теорией машинного обучения. «Сейчас стало очевидным (а раньше это было вовсе не очевидно), что чем больше объем данных, тем лучше модель обучается. — говорит Ветров. — Раньше считалось, то после какого-то количество объектов качество лучше не станет, сейчас понятно, что станет, если мы говорим именно о нейросети. Именно нейросети “прожорливы” на данные, другие модели машинного обучения так себя не ведут. Дальше все упирается в наши возможности собрать данные. Есть области, где данных очень много, например поисковые запросы в интернете, каждую секунду приходят сотни тысяч запросов, проблема только, где их хранить (“Гугл” и “Яндекс” где-то хранят). Но есть области, где данных не очень много. Но в любом случае, если есть возможность собрать больше данных, их стараются собрать побольше».

Количество данных — это ключевой тормоз экспансии нейросетевых моделей ИИ в разные области экономики. «Я читал совместное постановление Отделения информатики, в котором я состою, и Отделения сельскохозяйственных наук, — говорит Владимир Арлазаров. — Здесь разные проблемы перечисляются, но по существу все это проблемы искусственного интеллекта».

Если оцифровывать любые процессы человеческой деятельности, то с очень большой вероятностью ИИ сможет их существенно оптимизировать. «Есть основания предполагать, что если в сельском хозяйстве удалось собрать много данных, то урожайность и производительность можно было бы существенно поднять за счет адресного подходу к выращиванию разных растений, — говорит Дмитрий Ветров. — То же самое в металлургии: если бы металлурги тщательно документировали то, что делается на заводе». И сейчас в российской металлургии ИИ используется для оценки качества стали, но это, в общем, решенная на картинках из интернета задача.

В российской промышленности уже активно работают нейросети, которые точно оценивают качество стали, топливных элементов для ядерной энергетики; естественно, они используются в системах безопасности. Но, конечно, от ИИ ждут прорыва в области робототехники, перспективы которого пока не очень видны. «Роботы — это как термоядерный синтез: десятилетиями говорят, что прорыв близко, но его все нет, — говорит Дмитрий Ветров. — С роботами проблем две. Первая: они дорогие, в отличие от ИИ, который просто программа на компьютере. Вторая: роботам сложно с тонкой моторикой. С простыми операциями проблем нет, а вот даже заменить шину на шиномонтаже оказывается непросто. То есть каждая операция несложна, но сочетание пока получается плохо. Не зря мелкая моторика — отличительный признак человека, даже у обезьян она не так развита».

Впрочем, и здесь есть прогресс. Например, научный сотрудник лаборатории сенсомоторики Университета Тюбингена Альберт Муковский и его коллеги сделали реалистичную модель, описывающую движения человека. Она пока виртуальная и используется в медицине для создания тренажеров в целях реабилитации людей с нарушениями движения. Но, по его словам, проблема неестественного движения роботов уже упирается в инженерные решения самого механизма, а не в «мозги» нейросети.

Распознавание медицинских изображений — задача тривиальная в той же мере (то есть требующая инженерного остроумия, но не научного прорыва), решаемая не очень большими мощностями, есть работающие российские сервисы, например botkin.ai. А если в каких-то случаях она плохо решается на каких-то конкретных данных, то это временно — до преодоления дефицита вычислительных мощностей, размеченных данных. «Для изображения ИИ не всегда и нужен. Проблемы могли бы быть с постановкой диагноза не по изображениям, а по более сложным данным, хорошо понятным человеку, но трудным для машины, например по хрипам пациента, — считает Альберт Муковский. — Но и тут задача скорее техническая — научить модель, например, отделять шум от того, что пациенты записывают эти звуки на разные мобильные телефоны в разных условиях. Но и это со временем будет преодолено».

Однако есть не только технические, но и принципиальные научные проблемы переднего края развития ИИ. Михаил Бурцев, создатель платформы разговорного искусственного интеллекта DeepPavlov (открытый код, на основе которого в ближайшие пару лет будут строиться самые разные голосовые помощники), полагает, что если судить формально, то знаменитый «тест Тьюринга» (в котором наблюдатель в диалоговой игре должен понять, кто из собеседников человек, а кто машина) условно может считаться пройденным. Действительно, разговорный ИИ сейчас настолько умело имитирует речь, что только четыре процента клиентов банков понимают, что с ним говорит довольно простой алгоритм, а более сложный ИИ имитирует речь еще более искусно. Однако, как говорит Бурцев, при сколько-нибудь пристрастном и внимательном разговоре станет понятно, что перед вами не человек (или невнимательный, не очень понимающий человек): он не удерживает суть разговора, не разделяет с вами какую-то определенную картину мира, а с ней тему и сложные контексты беседы.

«Хотелось бы сделать качественный переход от текущих алгоритмов к моделям, которые будут обладать чем-то наподобие здравого смысла и будут обучаться, как человек, на единичных примерах, а не на большом объеме данных, — говорит Михаил Бурцев. — Мне кажется, что это возможно, у нас есть концептуальные подходы, которые могут проблему решить, но пока еще не совсем понятно, как технически это сделать. Сейчас уже есть модели, которые успешно предсказывают следующее слово в диалоге, то есть отвечают, с точки зрения внешнего наблюдателя, осмысленно. Однако после первых удачных предложений ИИ начинает терять осмысленность, и то, что в середине, уже плохо соответствует тому, что было в начале. Сама по себе картина мира у ИИ, даже если он обучен на огромном количестве текстов, не выстраивается, как создать модель, способную на это, — ключевая задача».

Проблему здравого смысла можно отчасти обойти в случае формальных языков, картина мира дана в самом языке явно. Так, в прошлом году разговорному ИИ «Фейсбука (соцсеть признана в РФ экстремистской и запрещена)» разработчики «скормили» переведенные в понятный ему язык большую группу данных о дифференциальных уравнениях и задачах, с ними связных. Машина решала не уравнения, а знакомую ей задачу на поиск правильного пропущенного слова в тексте, как при обучении естественному языку, и неожиданно сумела решить 94% данных ей дифференциальных уравнений первого порядка и 81,2% — второго. Не обладающий рассудительностью и здравым смыслом алгоритм может находить правильные ответы даже в новых для себя областях, если эти области могут быть строго документированы.

Михаил Бурцев выделяет шесть принципиальных научных проблем ИИ: обучение на малом числе примеров, катастрофическое забывание, рассуждения, здравый смысл, объяснимость и целенаправленность.

Обучаться на малом количестве примеров может не только человек, но и самые разные животные. Искусственный интеллект сейчас учится явно не так, как мы, ему нужны миллионы однотипных данных, и сейчас многие ученые нацелены на поиск путей решения этой задачи.

Катастрофическое забывание — это свойство ИИ терять навык решения задач, которым ее научили на одной группе данных, если после этого его начали учить на другой. «Если мы научили модель предсказывать следующее слово в тексте на текстах из Википедии, а потом учим предсказывать слова на текстах новостей, то работать с Википедией она станет плохо. Это значит, что у ИИ нет универсального способа накапливать знания». — объясняет Михаил Бурцев.

То есть современные модели ИИ в основном очень узкие специалисты. «Обученная нейросеть записывает опыт в форме векторов в многомерном пространстве, при обучении на принципиально других данных эти вектора сдвигаются, система знания рушится, — говорит Михаил Бурцев. — Если мы придумаем хитрые способы защищать какие-то размерности этого пространства, возможно, проблема будет решена».

Проблему катастрофического забывания, обучения на малых объемах данных и отчасти даже здравого смысла и объяснимости ученые как раз сейчас штурмуют.

Обретение здравого смысла

Современные модели искусственного интеллекта сейчас уже начинают уметь учиться в условиях недостатка данных.

«Тренд из трендов в последние года два — это обучение на незамеченных данных в случае небольшого объема данных», — говорит Дмитрий Ветров и приводит такой пример.

Допустим, нужно определить рак легких по флюорограмме, но для обучения модели этой задаче миллиона снимков нет, даже миллиона снимков здоровых людей ни одна больница не наберет, наберет всего, скажем, десять тысяч. На этом объеме данных нейросеть обучить можно, но работать она будет плохо, с высоким процентом ошибки. Сильная идея в том, что обучить нейросеть какой-то другой, похожей задаче (скажем, тоже на картинках), в которой накоплено много данных. И когда модель хорошо научится на задаче с большими объемами данных, ей можно «скормить» новую задачу. Например, можно построить модельную задачу, можно разделить условные изображения на клетки, выкинуть из них нечетные клетки и обучить нейросеть предсказывать недостающие клетки. И тут у нас данных много, потому что много клеточек. Задача с точки зрения практики бессмысленная, но на такой задаче нейросеть обучается анализировать флюорографические снимки, начинает находить зависимости, штришки, полутени. После того как она хорошо научилась, ее уже можно учить различать снимки здоровых и больных.

Но что делать, когда данных все равно мало? Сейчас все чаще применяется мультимодальные обучение, когда сочетаются, например, тексты и картинки. «Самая частая задача, которую можно приводить в пример, — классификация объектов, — говорит Дмитрий Ветров.

Допустим, сеть умеет различать самолеты, машины, животных, людей. Но появляется задача определять авианосцы, а в обучающей выборке их не было. И одно из решений — использовать и авианосец как картинку, и авианосец как текст. Как раз в последние годы совершен прорыв в области обработки естественного языка. Модели умеют перевести предложение или целую «Войну и мир» в векторное представление, которое будет содержать в себе цифровое описание смыслов текста. Машина обнаруживает, что класс «корабль» близок к классу «авианосец» и к классу «самолет», и тогда уже она сможет и картинку с авианосцем правильно определить.

«Это и есть мультимодальность: нейросеть научилась определять новый объект из сочетания разного типа данных, — говорит Дмитрий Ветров. — Это нетривиальная и очень перспективная вещь, которая приближает нас к сильному (то есть самостоятельному, ставящему себе цели, сознательному. — “Эксперт”) искусственному интеллекту, так умеет думать человек. Нейросеть учится решать те задачи, на которые ее не обучали. До недавнего времени нейросети этого не умели».

И в этой области сейчас решаются проблемы катастрофического забывания и обучения на малом объеме данных, которые выделил Михаил Бурцев.

«Что касается проблем “рассуждение” и “здравый смысл”, то и это скорее задача, а не проблема, — говорит Альберт Муковский. — Ее решение как раз сейчас ищут путем совмещения представлений разных модулей нейросети — например, представлений изображений и представлений их текстовых описаний. Все это активная область исследований, она вполне успешно развивается».

На пересечении знаний, накопленных в текстовых моделях и в картиночных моделях, может возникать следующий уровень знаний.

Более того, современные нейросети уже не в полной мере черный ящик, их слои можно создать так, чтобы на некоторых из них возникали укрупненные параметры, фактически обобщения, которые можно понимать, работать с ними, настраивать. Один из многих приемов создать такие укрупненные параметры — метод бутылочного горлышка, подразумевающий, что один из слоев нейросети сильно меньше, чем предыдущий, а это означает, что в результате обучения в этом слое возникают не десятки тысяч векторов на основе миллиардов данных, а небольшое количество характеристик объекта. Если это не картина мира, то шаг в этом направлении.

Современные нейросети имеют много слоев, которые могут различаться по ширине и функции. Например, архитектура с «бутылочным горлышком» позволяет в слое с небольшим количеством нейронов получить обобщенные параметры системы

В этом направлении работает, как считает Михаил Бурцев, и другой современный тренд — на совмещение нейросетевых моделей, про которые нельзя сказать, как именно они пришли к тому или иному ответу, и структурированных «графов знаний». «Например, Википедия: за ней стоит большой граф, система знаний Wikidata, описывающая смысловые связи между частями. Нам осталось придумать, как совмещать в модели неструктурированные наборы данных и такие структуры».

Одним из ключевых трендов последних семи-восьми лет в ИИ является создание генеративных моделей, в которых проявляются все более здраво осмысленные и рационализируемые свойства нейросетей. Генеративные модели не просто распознают образы и решают задачи на основе большого набора решенных примеров — они создают новые объекты. Например, недавно в соцсетях стало популярно приложение Face App, созданное россиянином Ярославом Гончаровым, которое умеет изменять возраст человека на фотографии. Но даже в таких условно игровых, пока просто забавных приложениях машина должна иметь небольшое количество настраиваемых параметров, своего рода картину мира, понимая, что именно делает лицо старым или молодым, чтобы создавать новые изображения.

«Генеративные нейросети с каждым годом работают все лучше, — говорит Дмитрий Ветров. — И следующий шаг — переход к произвольным генеративным моделям. Машина не только учится генерировать какие-то изображения, но именно в соответствии с заданными условиями по ТЗ. Например, пейзаж, спокойное море с лучами заката или стихотворение на тему белого бычка». Перспективное практическое направление — генеративные модели для поиска новых лекарств, химические соединения с заранее заданными свойствами. В 2020 году в журнале Cell была опубликована статья ученых из MIT об открытии нового антибиотика с помощью нейросети. «Вообще, сложность и стоимость поиска новых антибиотиков растет по экспоненте, и уже десять лет не регистрировали новые препараты, и нейросеть помогла», — говорит Ветров. Более того, нейросеть указала на зону поиска типов соединений, которые могут претендовать на антибактериальное действие.

«Раньше ИИ не имел широкой популярности среди химиков-органиков. Работа с ним требовала обширных знаний в области синтетической органической химии и хорошей интуиции. Современные алгоритмы на глубоких нейросетях показали, что их креативность применима к созданию новых химических реакций», — говорит старший научный сотрудник лаборатории хемоинформатики и молекулярного моделирования Казанского федерального университета Тимур Маджидов. Недавно он и его коллеги перевели базу данных химических реакций на понятный алгоритмам формальный язык и сделали генеративную модель, которая подсказывает новые реакции, включая неизвестные ранее, и пути синтеза, в том числе будущих лекарств. Такие нейросети нуждаются в ученых, которые смогут проверить гипотезы, сгенерированны ИИ в лаборатории и в клинических испытаниях, но они не просто отбирают потенциально подходящие формулы среди миллионов известных веществ, но и указывают пути поиска, о которых люди не догадывались.

Таким образом, искусственный интеллект еще не думает «как человек», но уже умеет решать новые задачи и штурмует проблемы обучения на малом количестве примеров, катастрофического забывания, здравого смысла и объяснимости. А что с целеполаганием, когда он сможет сам себе выбирать задачи?

Когда он станет человеком

«Объективно мы находимся на очень ранней стадии, — говорит Владимир Арлозоров. — Конечно, технологии развиваются быстро, интенсивно, все прекрасно. Но, например, у нас нет задач по постановке сценариев. Это какое-то другое совершенно целеполагание, другой взгляд. В сценариях обычно возникают цели. А мы исходим, наоборот, из цели и стараемся подстроить алгоритмы, нейронные сети, искусственные интеллекты, обучение, все, что угодно, под эту цель. А постановка цели — это одно из основных свойств человека, одно из главных. У обезьян оно в каком-то виде есть, в зачаточном, у большинства других это более или менее автоматически образуемые цели. Пока мы ничего похожего в искусственном интеллекте придумать не можем».

Впрочем, как подсказывает Альберт Муковский, постановка целей, система мотивации и поведения, возможно, не самое сложное, что есть в живых организмах. Например, еще в 1950 году будущий нобелевский лауреат Конрад Лоренц предложил «гидравлическую» модель поведения животных, в которых мотивы и эмоции считаются как в задаче связанных сосудов, и эта модель очень простая, для нее не нужен ИИ: сосуд страха переполнен — беги. Мы, возможно, переоцениваем собственное поведение, которое часто диктуется довольно простыми стимулами и уровнями гормонов так же просто, как в модели Лоренца. Муковский считает, что если была бы задача построить искусственного домашнего питомца, то все для этого есть — умная сенсорика из беспилотных автомобилей, алгоритмы движения (с точностью до инженерного исполнения), она сложно и узнаваемо эмоционально вела бы себя по простому алгоритму Лоренца и умела бы еще и говорить, как разговорные ИИ. Но было бы это существо с сознанием, эмоциями, собственно интеллектом в человеческом понимании? «Мне кажется, что мы здесь попадаем в область философии и этики, а не искусственного интеллекта. Но я придерживаюсь функционального подхода: если действительно какая-то система обладает поведением, неотличимым от поведения человека, то она и интеллектуальными способностями человека обладает. Обладает ли она сознанием, зависит от определения».

Тем не менее у живых систем есть существенные отличия от моделей, которые человек сможет создать в ближайшие годы. «Во-первых, живые организмы имеют дело с принципиально непредсказуемой средой, модели ИИ же могут научиться хорошо “видеть” часть мира, которую они научились видеть, — говорит Муковский. — Во-вторых, человеческий интеллект умеет работать с высокими абстракциями, все время строит над уровнем решаемой задачей уровни абстрактного обобщения и все время работает с ними. В-третьих, все живое прошло миллиарды лет эволюции, которое с точки зрения нашей науки тоже обучение».

Как работает искусственный интеллект. И почему

Ключевой тренд, которому в следующем году будет двадцать лет, — быстрое распространение нейросетевых алгоритмов, которые заместили все другие алгоритмы машинного обучения. В 2012 году профессор Торонтского университета Джеффри Хинтон с двумя своими студентами создал нейросеть AlexNet, которая выиграла у других алгоритмов в соревновании по распознаванию визуальных образов, то есть с наименьшим количеством ошибок определяла, что именно изображено на картинке.

Вообще, компьютерные программы работают по написанному алгоритму, на входе принимают условие, на выходе — ответ. Но для решения многих задач невозможно создать точный алгоритм, поэтому применяются статистические методы, а программа «учится» на примерах. Скажем, не знает, как сделать следующий ход в шахматах, зато знает примеры успешных и неуспешных партий. Алгоритм, выигравший у Гарри Каспарова в шахматы в 1996 году, использовал и теорию дебюта, и статистический анализ сыгранных партий, и алгоритм с расчетом дерева последствий хода. А вот AlphaGo, который победил в 2016 году чемпиона по игре в Го (более образной и менее алгоритмизируемой), был нейросетью, то есть алгоритмом, в который не надо вкладывать никаких теорий, он научился «сам». Нейросетевой алгоритм не предполагает какой-либо изначально классификации, созданного людьми дерева принятия решений или других концептуальных хитростей.

Первый нейросетевой алгоритм был придуман и реализован в машине «Марк I» Фрэнком Розенблаттом в 1957 году как элементарная модель работы мозга. Идея, которая носилась в воздухе: в то время бури и натиска математики и нейрофизиологи вообще создали множество новых подходов, включая новую науку — кибернетику.

Мозг состоит из нервных клеток, каждую из которых очень упрощенно можно описать как переключатель: если на нейрон поступает достаточное количество сигналов от других нейронов, он возбуждает их и сам передает сигнал на следующий нейрон. И несмотря на такой простой принцип, не только грандиозный мозг человека, но и мозги низших организмов могут решать и алгоритмизированные задачи, и задачи, для которых нет алгоритма, например различать образы. Мозг может запоминать образы и события с помощью того, что связи между нейронами могут закрепляться, если по ним пошел сигнал.

Перцептрон Розенблатта моделировал нейроны с помощью электронного переключателя по тому же принципу «да или нет» и состоял из одного слоя памяти. Два других слоя — слой обработки информации (изображения) и слой выдачи, на котором он сообщает ответ. Память фиксировалась в связях между нейронами в процессе обучения: если в результате демонстрации правильной картинки между нейронами прошел сигнал, эта связь фиксировалась. Первый перцептрон учился различать буквы (даже если они в разном написании) и достиг некоторых успехов. В науке усложненные перцептроны использовались все эти десятилетия, но до начала 2010-х годов не находили широкого применения. Революция произошла в начале 2010-х благодаря росту производительности компьютеров и накоплению больших данных. Нейросетям нужно много данных и много компьютерных мощностей. При этом основной принцип их работы, в общем, такой же, как у перцептрона.

Элементарная нейросетевая модель состоит из «нейронов» (кружки) и связей между ними (стрелки), расположенных в три слоя: слоя обработки информации (слева), слоя памяти (в центре) и слоя вывода (справа). Перцептрон обучается, формируя связи между «нейронами»

«Идейно что перцептрон, что нейронные сети абсолютно одно. — говорит Владимир Арлазаров. — Еще в начале шестидесятых годов, чтобы улучшить перцептрон, были придуманы другие переходные функции. Придумали, в частности, заменить функцию дискретного переключения (было 0 стало 1) в ответ на стимуляцию на непрерывные функции, подходящие для решения задач на минимизацию функций. Это никакое не великое открытие, но так удобнее, и это преобразило всё».

Современные нейросети, в отличие от первого перцептрона, — это не электронное устройство с физическими переключателями, а программа, в которой можно подобрать разные математические формулы, описывающие активность «нейрона». С точки зрения математики нейросеть — это алгоритм, решающий задачи линейной алгебры, например, он перемножает большие матрицы, а ключевая задача — поиск минимума функций, поиск оптимального пути по сети.

«Если бы у нас был волшебный оптимизатор, прибор, который находил бы минимум функции одинаково быстро для любой из них, то работали бы и многослойные перцептроны не хуже современных сетей. — говорит Дмитрий Ветров. — Но у нас мир не волшебный, мы используем конкретные численные методы для поиска минимума функции, и эти методы чувствительны к тому, какой вид имеет функция. А в некоторых случаях эти методы могут и не найти минимум, на жаргоне студентов — “сетка развалилась”».

«Между нейронами были связи изначально от всех ко всем. И это было очень затратно и не очень производительно, — говорит Владимир Арлазаров. — Поэтому придумали, скажем, сверточные сети, изначально для работы с изображениями. На первый слой поступает картинка как таковая, а следующий фокусируется на небольших участках, подробно работает с окрестностями куска изображения, как через окошко. И это тоже не новая идея, но в последние годы сильно развившаяся».

Сверточные сети появились в 1990-е годы, потом было несколько улучшений — ResNet появился 2010-е годы, а в конце 2010-х — сети-трансформеры, самое современное и очень популярное решение, идея которого в том, что некоторые слои в нем анализируют не входящую информацию, а другие слои, «работают» с собой, укрепляя продуктивные связи между узлами сети. «Эти решения были найдены, скорее, подбором, были соображения, почему какие-то находки могу сработать, но решающим был опыт. — говорит Дмитрий Ветров. — Хитрая архитектура (способ изначальной организации связей между нейронами внутри слоя и между слоями, дизайн нейросети. — “Эксперт”) и игра с разными формулами в конце концов упрощает задачу оптимизации, которую сеть решает».

Типичные задачи, которые решают большие нейросети, — это работа с различными языками и работа с изображениями (в отдельный тип можно вынести работу с временными рядами, например алгоритмы движения, похожие на человеческие, но в них гораздо меньше параметров, и сами сети меньше). И до бума сетей-трансформеров со слоями, направленными внутрь себя, модели для картинок и модели для языков различались: для работы с картинками удобнее было обращать внимание на локальные образы («фичи»), а для работы с языками — учитывать и дальние связи в предложении. Но сети-трансформеры, придуманные для языковых моделей, оказались, как поясняет Михаил Бурцев, удобными для всех моделей, в том числе для картиночных.

Масштаб современных нейросетей можно оценить на примере самой большой в мире разговорной модели GPT-3, она обучена 500 млрд слов, в ней 175 млрд параметров и 96 слоев, количество параметров для одного слова — 12 888. Это вещь не меньшей сложности, чем мозг.

Но почему простая по сути модель, состоящая из связанных с друг другом элементов, не имеющая ни категорий, ни других элементов мышления работает, и работает все эффективнее?

Не исключено, что это свойство нашего мира. «Мир вокруг нас не устроен случайно. Если есть линия, то она, скорее, всего продолжится, за углом будет новая линия, алгоритм улавливает эти закономерности, — говорит Альберт Муковский. — Мир имеет неслучайные черты, и поэтому изначально как бы случайная сеть в конце концов при обучении обретает неслучайные связи. В конце концов, и мозг появился в эволюции не случайно: биологическая эволюция с точки зрения нашей науки — это же тоже обучение, длительное и на множестве примеров.

В подготовке статьи принимали участие Александр Механик, Андрей Константинов и Варвара Гузий

Фото: Артем Геодакян/ТАСС, DPA/Picture-Alliance

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Искусственный интеллект: что он может и чего не может

Что он может

Чего он не может

Обретение здравого смысла

Когда он станет человеком

Как работает искусственный интеллект. И почему

Рекомендуемые статьи

История скоростного поезда ЭР200

Александр Цыпкин – писатель, сценарист, а с недавних пор и актер дает советы

Как рассрочка и BNPL-сервисы углубляют долговую яму

Слова — мощный афродизиак

Инвесторы думали, что устроили революцию, но помогли заработать своим врагам

Как наводнение превратилось в фишку ресторана, а такси – в плантацию огурцов

Первый урожай российских органических яблок в продаже

Дэмиен Херли строил планы на деньги своего отца, но тут в дело вмешался дедушка

Как Никол Пашинян довел Армению до военной капитуляции

«Масочная культура» постепенно обрастает наблюдениями, требующими обобщений

Как Москва и Тель-Авив выстраивали коммуникацию по заветам Примакова

Плоские поверхности разрушают сетку водородных связей воды, упрощая адсорбцию

Чем уникальны сверхновые типа Iax?

Почему психотерапия становится популярной в России

146-я серия о кругосветном путешествии москвички Ирины Сидоренко и ее собаки

Частный город Проспера столкнулся с протестами местных жителей

Отрывок из книги Сары Форден, которая легла в основу киноистории «Дом Гуччи»

Американские геологи обнаружили внутри алмаза новый минерал давемаоит

Некоторые нюансы при замене термопасты на процессоре

Дисперсность целевого полимера уменьшается при добавлении кислоты

С кем ссорился Александр Васильевич Масляков

Сколько лет каждая из нас потратила на то, чтобы научиться быть удобной?

Потрясающая галерея бывших советских ядерных полигонов произвела фурор в Лондоне

Разбираемся, действительно ли сульфаты в шампуне вредят волосам

Елена Стафьева о совместном опыте Жака Кавалье-Бельтруда и Фрэнка Гери

Пингвин Адели заблудился и отплыл на 3000 километров от дома

Как без больших потерь пережить все этапы расставания с работодателем

Евгения Кац о программе трудоустройства для жителей ПНИ № 30

Вадим Лапин и его сын Марк, создатели Ginza Project и ресторана Grecco

Как «Игра в кальмара» привлекла внимание к сфере перевода