Новый ум короля
Как создаются лучшие системы машинного обучения в мире
У каждой технологической компании есть хорошо известные пользовательские продукты и внутренние разработки, на которых эти продукты держатся. Это своеобразные двигатели, которые вращают шестеренки механизма. Долгое время главным двигателем «Яндекса» была система машинного обучения «Матрикснет», которая обеспечивала и работу поиска, и подбор подходящих рекламных объявлений, и выбор оптимального маршрута в навигаторе. Этим летом «Яндекс» завершил работу над новой системой, которая должна полностью заменить «Матрикснет» и стать новым «умом» главного российского поисковика. Разработкой этой системы руководила Анна Вероника Дорогуш, выпускница МГУ, которой сейчас всего 28 лет.
«Просто я очень люблю решать математические задачки. Ты сидишь над ней час, другой, и когда вдруг начинает складываться, когда части пазла совпадают друг с другом, возникает удивительное ощущение, эйфория. Собственно говоря, с этого все и началось». Сейчас Анна Вероника – тимлид одного из самых важных проектов российского поисковика. Но несколько лет назад она была обычной выпускницей, которая зашла на лекцию известного математика, академика Альберта Николаевича Ширяева. Лекцию тогда почему-то отменили, и вместо нее решено было провести семинар для студентов яндексовской Школы анализа данных. «Было очень интересно, а одна из задач оказалась слишком сложной, и ее оставили студентам как домашнее задание. Она меня так зацепила, что очень хотелось ее доделать и показать решение преподавателю, Евгению Бурнаеву. Я не была студенткой Школы и могла только лично попросить его проверить мое решение вместе с другими работами. Но потом ведь надо было вернуться за результатом на следующий семинар, потом еще раз и еще, и так я неожиданно попала в ШАД».
Школа отпраздновала в нынешнем году свое десятилетие. Начиналась она как экспериментальный проект, задачей которого было научить потенциальных соискателей анализировать данные на индустриальном уровне, чего вчерашние студенты обычно не умеют. Сегодня ШАД – это фактически полноценный университет, который бесплатно дает фундаментальное образование. В области машинного обучения и анализа данных Школа может конкурировать с лучшими мировыми университетами, при этом от выпускника не требуют после окончания учебы работать в компании. Некоторые выпускники идут работать к конкурентам, и это считается вполне нормальным.
История Анны Вероники показывает, что часто так и бывает. Учеба в ШАД не помешала ей поработать и в российской компании ABBYY, и в американской Microsoft. «Тогда считалось, что надо обязательно уезжать в западную компанию, и это действительно многое мне дало. Но я, как оказалось, очень люблю Москву, поэтому, как и многие мои коллеги, все равно вернулась». Так Анна Вероника оказалась сначала сотрудницей российского Google, а потом начала работать в «Яндексе».
Загадка кошкиного зуба
В том, что лучшие специалисты по математическому обучению часто приходят именно в поисковые компании, нет ничего необычного. Ведь поиск – это прежде всего точное соответствие между желанием пользователя и ответом машины. И чтобы научить машины правильно понимать эти желания, нужны специалисты по машинному обучению.
Если отбросить технологический жаргон, то машинное обучение – это просто автоматическая система угадывания. Неважно чего: будущей погоды, котировок акций или адреса веб-страницы. Причем такая система основана не на программировании (когда есть четкий алгоритм поведения), а на демонстрации компьютеру большого числа обучающих примеров. В мире, где информации все больше, машинное обучение часто единственный способ как-то ее осмыслить.