«Десять уравнений, которые правят миром»
Сегодня мы генерируем больше данных, чем когда бы то ни было. Этим успешно пользуются люди, которые умеют работать с данными и строить математические модели. В книге «Десять уравнений, которые правят миром. И как их можете использовать вы» (издательство «Манн, Иванов и Фербер»), переведенной на русский язык Евгением Поникаровым, доктор математических наук Дэвид Самптер рассказывает, как прикладная математика применяется для управления процессами и принятия решений в финансах, рекламе, социальных сетях, науке и индустрии спорта. Предлагаем вам ознакомиться с фрагментом, посвященным математике, которая лежит в основе машинного обучения.
Уравнение обучения
Вероятно, вы слышали, что в технологиях будущего станет доминировать искусственный интеллект (ИИ). Ученые уже натренировали компьютеры побеждать в го, а сейчас испытывают беспилотные автомобили. Да, я объясняю некоторое количество уравнений в этой книге, но не забыл ли я что-нибудь? Не стоит ли мне также рассказать вам секреты, стоящие за ИИ, который используют Google и Facebook (соцсеть признана в РФ экстремистской и запрещена)*? Не следует ли мне объяснить, каким образом мы можем заставить компьютеры учиться так же, как мы сами?
*В октябре 2021 года переименована в Meta (признана экстремистской организацией на территории РФ). — прим. N + 1
Я открою вам секрет, который не совсем соответствует содержанию фильмов «Она» или «Из машины»1. Он также не увязывается с опасениями Стивена Хокинга или шумихой Илона Маска. Тони Старк, вымышленный супергерой — Железный человек из комиксов Marvel, — не обрадовался бы тому, что я скажу: искусственный интеллект в его современной форме не больше (и не меньше) чем десять уравнений, которые инженеры используют совместно и творчески. Но прежде чем я объясню, как работает ИИ, сделаем рекламную паузу.
1В фильмах Спайка Джонза Her («Она») и Алекса Гарленда Ex machina («Из машины») речь идет об искусственном интеллекте.
Примерно во времена песни Gangnam Style у YouTube возникла одна проблема. Шел 2012 год; хотя сотни миллионов людей щелкали по видеороликам и посещали этот сайт, они не оставались там надолго. Новые ролики вроде «Чарли укусил меня за палец», «Двойная радуга», «Что говорит эта лиса?» или Ice Bucket Challenge удерживали их внимание всего на тридцать секунд, а дальше они снова возвращались к телевизору или к другим занятиям. Чтобы получать доход от рекламы, YouTube должен был стать местом, где пользователи будут зависать.
Значительную часть проблемы представлял алгоритм сайта. Он использовал систему рекомендации видео, основанную на уравнении рекламы из главы 7. Для роликов, которые смотрели и отмечали лайками пользователи, строилась корреляционная матрица. Однако этот метод не учитывал, что молодежь хотела смотреть самые свежие видео, и не уточнял, насколько интересен пользователям ролик. Он просто показывал видео, которые смотрели другие. В результате в списках рекомендуемых продолжала появляться норвежская армия, исполняющая Harlem Shake, а пользователи с сайта уходили.
Владельцы YouTube обратились к специалистам Google: «Эй, Google, как помочь детям найти те видеоролики, которые им нравятся?» — спросили (наверное) они. Три разработчика, получившие эту задачу, — Пол Ковингтон, Джей Адамс и Эмре Саргин — вскоре поняли, что самый важный критерий для оптимизации YouTube — время просмотра. Если бы сайт мог заставить пользователей смотреть как можно больше роликов как можно дольше, то легче было бы вставлять рекламу через регулярные промежутки времени и зарабатывать больше денег. При этом короткие свежие ролики были не так важны, как целые каналы, обеспечивающие постоянное появление свежего и длительного контента. Задача состояла в том, чтобы найти способ выявить этот контент на платформе, где каждую секунду загружаются часы видеороликов.
Ответ разработчиков имел форму воронки. Это приложение брало сотни миллионов видеороликов и сводило их примерно к десятку рекомендаций, представленных сбоку на странице сайта. Каждый пользователь получал собственную персонифицированную воронку с роликами, которые, возможно, он захочет посмотреть.