Холодный душ для базы данных
Радужные ожидания от повсеместного накопления больших данных могут не оправдаться. Пока очевидно лишь то, что ощутимую выгоду от них получит государство
Производитель лаков и красок AkzoNobel из Нидерландов пять лет назад представил инструмент на основе больших данных для судоходных компаний. Компания помогает спрогнозировать потенциальную экономию топлива и углекислого газа в зависимости от покрытия судна — еще до того, как это покрытие будет нанесено. На основе аккумулированных данных AkzoNobel предсказывает, как корабль будет обрастать ракушками, водорослями и другими морскими обитателями (все это замедляет ход судна), и предлагает то покрытие, которое даст наибольшую экономию.
Алена Дробышевская, директор группы консультирования в области ИТ KPMG в России и СНГ, приводит AkzoNobel как вдохновляющий пример того, как компания, аккумулировавшая данные начиная с 1970-х годов по инициативе сотрудников, в итоге смогла удачно их монетизировать. «Аналитический продукт стал дополнительным источником прибыли, но он также помогает их основному лакокрасочному бизнесу», — говорит она.
Однако история AkzoNobel — это вовсе не история случайного обогащения некой компании на основе накопленных big data, которые потом внезапно пригодились. Это крупная транснациональная компания с выручкой 10 млрд евро, свой продукт они готовили пять лет и привлекли к его разработке серьезные команды программистов и ученых.
Управление данными сегодня подается разработчиками специальных решений и бизнес-консультантами как непременный атрибут успешного в будущем бизнеса, который непременно выведет бизнес на новый уровень, сделает его более прибыльным и современным. После сбора данных следующая стадия — построенная на их базе аналитика, в том числе предсказательная, а дальше вроде бы рукой подать до цифровой компании.
Однако, присмотревшись к хайпу вокруг big data пристальнее, можно увидеть, что возможности больших данных пока не так уж обширны, а извлечь выгоду из них может ограниченное число игроков.
Интересно, что разработчики решений для больших данных уже призывают своих клиентов не ждать явных денежных эффектов от внедрения этих решений. Так, Билл Шмарзо, технический директор Hitachi Vantar, заявил, что рассматривать монетизацию больших данных как «нечто, предоставляемое взамен» (другими словами, пытаться продать свои данные, то, что смогли реализовать голландские поставщики красок) или как «выгоду от использования» (получить новый источник дохода на основе информации, извлеченной из накопленных данных) — «в корне неверный подход». Но как правильно подходить к монетизации big data, никто сказать не берется. Пока предлагается лишь копить данные, чтобы в будущем, возможно, получить от этого выгоду путем, который пока неясен.
Еще на базе
Большинство компаний сейчас находится на стадии сбора информации и составления так называемого озера данных — хранилища данных нового типа, где информация накапливается в необработанном виде и вместе с тем может легко выгружаться и использоваться для анализа. Это самая трудоемкая и затратная часть для компаний, которые хотят использовать big data. При этом мало создать озеро данных — важно, чтобы оно не превратилось в «болото», то есть в базу, откуда нельзя извлечь для обработки нужную информацию, где неясно, насколько эта информация верна, и т. д. «Одни отрасли — банки, телекомы — уже давно копят данные, можно сказать, в этом сущность их бизнеса, — говорит Алена Дробышевская. — Другие — промышленность, нефтянка — только начинают процесс накопления, создают свои озера данных. На этом этапе очень важно следить, чтобы эти озера данных не превращались в болота, потому что в этом случае при попытке построить на них аналитику к таким данным может возникать очень много вопросов: откуда взялась данная конкретная цифра? Сколько преобразований она прошла? То есть на этапе накопления важно управлять качеством данных — иначе мы рискуем получить цифры, которым не доверяем».
«Самое капиталоемкое в использовании больших данных — создание собственной базы, — говорит директор департамента стратегии и финансов банка “Зенит” Галина Лобова. — Основная сложность в правильности и единообразии данных. Например, в базе один и тот же человек проходит с двумя разными паспортами. Какой из них правильный? Актуальны ли его контактные данные? “Очистка” собственной базы может, в зависимости от объема и качества данных, стоить до десятков миллионов рублей. Что же касается решений на основе данных, то их стоимость как раз не столь существенна относительно создания первоначальной базы данных».
«Уже после накопления данных, когда с помощью таких технологий, как machine learning и ИИ, можно будет моделировать бизнес-задачи и рассматривать их с учетом накопленных данных более детально, возможно получение прибыли, — говорит Алена Дробышевская. — Надо ли аккумулировать данные? Однозначно да. Но смогут ли компании монетизировать их, будет зависеть от руководства компании. Самый очевидный пример — цифровое месторождение. Не секрет, что доступных полезных ископаемых почти не осталось, но использование накопленных данных позволяет повысить точность прогноза и снизить затраты на бурение новых скважин. Еще один пример: металлургическая компания, очень традиционный бизнес. Накопив данные о своих клиентах, они поняли, что могут заняться еще и переработкой, а также созданием конечного продукта, вплоть до того, что создали подразделение, занимающееся покрытием крыш металлочерепицей. А подробный анализ позволил им при наличии заказов управлять закупками металла — покупать не у себя же, а там, где дешевле. Это следствие именно работы с данными, которая привела к смене всей парадигмы этого бизнеса».
Из сходных примеров: оператор «Диснейлендов» Disney World теперь заранее планирует техобслуживание аттракционов, с помощью обработки данных прогнозируя неисправность двигателей. Но все это скорее частные случаи экономии, а не существенный прорыв в бизнесе.
Прикупить данных
Чтобы понять, как работает big data, возьмем сферу, которая со времен своего появления имеет дело с большим объемом данных — банковскую. Банк знает о своих клиентах:
— все анкетные данные: возраст, пол, место прописки, часто — место работы и образование, наличие детей;
— что и где вы покупаете — если вы платите картой;
— наличие кредитов, накоплений, штрафов, задолженностей по налогам и т. д.
Кроме того, банки активно пользуются накопленными данными сторонних компаний. «Банки обычно покупают агрегированные данные у сотовых операторов, поисковиков и так далее, — рассказывает Андрей Румянцев, аналитик банка для предпринимателей “Точка”. — Важно понимать: это деперсонализированные данные, которые демонстрируют только статистику по рынку и никак не раскрывают персональные данные. Агрегированные данные сравниваются с данными, которые есть у банка. Так мы понимаем, насколько наша информация коррелирует с общим состоянием рынка и насколько наши выборки репрезентативны».
Кроме баз данных мошенников или налоговой, банкам интересны поведенческие характеристики клиентов, история поисковых запросов, данные соцсетей — словом, все то же самое, что используется для контекстной рекламы, добавляет Галина Лобова. В целом соотношение собственных и приобретаемых данных у банка может составлять 60:40.
«Компании, имеющие доступ к геоданным, такие как телекомы или ИТ-компании, поставляющие приложения-навигаторы, могут с высокой точностью узнать, где человек живет и работает, где любит отдыхать, какие рестораны предпочитает, — добавляет Александра Аронова, заместитель генерального директора АО ГЛОНАСС. — Есть отдельное направление по сбору и анализу данных из соцсетей. Самый простой пример: постоянные чекины в определенном торговом центре или ресторане позволяют сделать предположение об уровне дохода. Эта информация также может быть продана банкам или торговым сетям».
На этой основе уже много лет выстроены скоринговые модели для потребительских и других кредитов физлицам, и теперь банки сосредоточились на том, чтобы делать более точечные предложения клиентам — существующим и потенциальным. Задача на данном этапе не столько заработать, сколько сократить затраты на маркетинг.
«Мы в “Точке” используем в основном собственную аналитику: смотрим на поведение клиента, на его платежи и пытаемся выявить некие паттерны и закономерности, — рассказывает Андрей Румянцев. — Это полезно, чтобы предложить подходящий именно ему продукт. Простой пример: если каждый месяц клиент переводит деньги одним и тем же физлицам, имеет смысл предложить ему зарплатный проект — такое точечное предложение повышает вероятность того, что он подключит услугу, которая облегчит ему работу».
Галина Лобова считает новые методы работы с большими данными серьезным подспорьем для банков: «В ближайший год те банки, которые лучше подготовились к использованию данных и смогут давать клиенту более точное, персональное предложение именно в тот момент, когда у него сформировалась определенная потребность, получат существенное конкурентное преимущество. Они смогут меньше тратить на маркетинг за счет более сфокусированного кредитного предложения (или других продуктов) и в результате предложить более низкую ставку или увеличить свою маржу». Дальше, объясняет представительница банка «Зенит», все дело в искусстве специалиста, занимающегося диджитал-маркетингом: он должен таким образом привлечь необходимого клиента (выбор ресурса для размещения и времени, формулирование наиболее интересной в данный момент времени для клиента фразы для его привлечения), чтобы получить максимальный эффект. «При разном построении фразы разница в эффекте для банка может достигать десяти раз. Но в целом точечное предложение сегодня дешевле сплошной рекламы: при сплошной рекламе выдача одного кредита обходится в пять-десять тысяч рублей, а точечное предложение может обойтись и в три тысячи рублей», — приводит цифры Галина Лобова.
Тем не менее выгоды от использования больших данных и искусственного интеллекта в банках ограничены. Недавно Deutsche Bank проанализировал рентабельность активов банков из десяти стран ЕС с 2010 по 2015 год и вынужден был признать: количественно определить связь между использованием ИИ и прибыльностью банков сложно. Правда, банки более прибыльны в странах, где регистрируется больше патентов на разработки в сфере ИИ, но, констатируют аналитики, точно неизвестно, где первопричина: может быть, просто более прибыльные банки охотнее вкладываются в новые разработки. Но и аналитики Deutsche Bank видят только два варианта, каким образом big data и ИИ могут увеличивать прибыль банка: либо взять на себя повторяющиеся задачи и тем самым сократить штат — а зарплаты обычно составляют существенную долю затрат банков, либо помочь в разработке новых продуктов и той самой индивидуализации предложений. И то и другое скорее очередной способ сокращения затрат, а не качественный рывок.
«Сегодня есть технологии, позволяющие сделать предложение клиентам твоего конкурента, — рассказывает Алексей Бушуев, экс-заместитель гендиректора ИК “Велес Капитал”, ранее возглавлявший планово-экономические управления в нескольких банках. — Около его офиса ставится устройство, перехватывающее Wi-Fi-идентификатор всех, кто проходит рядом, отсекаются те, кто там оказывается регулярно (это означает, что они там живут или работают), а остальные с высокой вероятностью и являются клиентами данной точки. Однако чудес не бывает: конверсия может вырасти по сравнению с рекламными предложениями, но это в любом случае не снайперский огонь, а чуть более прицельные выстрелы. В банках специальные маркетинговые предложения с учетом клиентских предпочтений могут поднять конверсию по заявкам на кредит вдвое, и для отдела продаж это будет отличный результат, но все равно это будет означать всего лишь десять процентов одобренных заявок на кредит, а не пять процентов, как обычно».
«Банки вовсю используют аналитику для скоринга и противодействия мошенничеству, а вот что касается маркетинга, то в этой сфере аналитика работает гораздо хуже, причем у всех игроков рынка, — резюмирует Андрей Румянцев. — Эффективность такой аналитики для банка и маркетинговых кампаний просчитать сложно, потому что на доходность от клиента влияет много других факторов».
Аналитика в зародыше
Одной из компаний, лучше всех монетизирующей данные в стране, считается Сбербанк (95,4 млн частных клиентов, почти 68 млн из которых используют онлайн- и СМС-банк). Аналитика Сбербанка, основанная на обрабатываемых им данных о клиентах, позволяет, например, дать ответ на вопрос, стоит ли открывать новый магазин или кафе в конкретном месте, есть ли там платежеспособный спрос для этого бизнеса.
В густонаселенной экосистеме Сбера за решения для бизнеса на основе big data отвечает компания «Технологии отраслевой трансформации», которая продает услугу так называемого таргетинга — персонализации рекламы. «Мы выполняем сегментационные исследования любых рыночных объектов по различным географическим признакам, — говорится в презентации “Технологий”. — Мы сегментируем юридические лица всех форм собственности и индустрий, а также потребителей по психографическим, социально-экономическим и демографическим параметрам, разрабатываем маркетинговые стратегии и рекламные схемы исходя из предпочтений каждой группы». Однако нельзя сказать, что этот бизнес приносит какие-то серьезные доходы: первая и пока последняя доступная отчетность за 2018 год сообщает, что у компании восемь миллионов рублей выручки и почти десять миллионов рублей убытка, значимых контрагентов пока нет.
Примерно так же, хотя и с большим размахом, строит бизнес на аналитике данных о перемещениях абонентов принадлежащая «Мегафону» oneFactor. Компания оценивает эффективность наружной рекламы, продает решения для банковского скоринга и т. д. В oneFactor утверждают, что три четверти всех решений в рамках розничных кредитных договоров российские банки и микрофинансовые компании принимают с учетом рекомендаций oneFactor. За 2018 год выручка ООО «Единый фактор» составляла 400 млн рублей, а среди клиентов значились Сбербанк и Альфа-банк.
Однако в скоринговых и маркетинговых моделях, построенных на данных, собранных другим, более крупным игроком, есть один существенный фактор риска: они могут не подойти банку более мелкому, региональному — словом, работающему с другой, более однородной аудиторией.
«Влияние на то, как настраивать скоринговую модель, в каждом банке оказывают обычно три подразделения: маркетинга, службы безопасности и собственно кредитного бизнеса, — рассказывает Алексей Бушуев. — Причем зависимости могут быть нелинейными: например, в одном из крупных частных банков при той же скоринговой модели при росте вдвое входящих заявок на кредит резко, тоже в два раза, выросло число проблемных кредитов. Выяснилось, что все дело в росте затрат на маркетинг — похоже, реклама “зацепила” тот слой клиентов, который обычно в этот банк не шел. При снижении затрат на маркетинг качество кредитов вернулось к прежнему значению».
По той же причине скоринговая модель, разработанная в одном банке на базе собранных им данных, может не работать в другом, объясняет финансист: к примеру, скоринг, разработанный на клиентах в Москве, не будет работать в отдаленных регионах — хотя бы потому, что в Москве найти работу с сопоставимым доходом можно через месяц, а в дотационном регионе, потеряв работу с зарплатой выше среднего, человек может ее искать гораздо дольше. Или другой пример: в Москве расходы на сотовую связь больше тысячи рублей в месяц — это плюс к портрету потенциального заемщика, а, скажем, на Сахалине, жители которого часто ездят в Японию, это не будет вообще ни о чем говорить. В конечном счете каждый банк все равно сам решает, какие данные о потенциальном клиенте принимать в расчет, а какие игнорировать, заключает Алексей Бушуев.
Данные для государства
«Сделать бизнес на больших данных, тем более сырых, мало кому удается, — говорит Александра Аронова. — Как правило, необходим конечный продукт, который адаптируется с помощью big data под определенного потребителя, становится более персонифицированным. Можно назвать это косвенной монетизацией данных. Сейчас на чистых big data зарабатывают в основном компании-посредники, которые продают данные тем, у кого есть конечный продукт для совершенствования. Таким образом, качественная монетизация больших данных без наличия конечного продукта для улучшения вызывает большие сомнения».
Похоже, реально выиграть от анализа больших данных смогут только те институты, у которых есть не только солидный объем накопленных данных, но и достаточно сил или полномочий, чтобы получать от этого деньги — и речь идет прежде всего о государственных структурах. Год назад, в январе 2019-го, американская Комиссия по ценным бумагам (SEC) выдвинула обвинения против десяти хакеров из США, Украины и России, которые взломали систему самой SEC и использовали непубличную информацию для инсайдерской торговли (так называемое дело Еременко), заработав на этом более четырех миллионов долларов. В SEC подчеркнули, что это дело невозможно было бы раскрыть без анализа больших данных о биржевых сделках, IP-адресах и т. д. А осенью 2019-го SEC раскрыла масштабную схему манипулирования акциями на американском и глобальном рынках со стороны нескольких китайских трейдеров («дело SEC против Чена»). Эта схема действовала в течение примерно четырех лет, охватывала около трех тысяч акций и осуществлялась через многочисленные счета. «Несмотря на огромный объем собранных данных, сотрудники смогли выделить детали, связывающие эти счета, и количественно оценить влияние торговли на рыночную цену ценных бумаг», — говорят в SEC.
В России банки уже давно проверяют потенциальных заемщиков через налоговую: сопоставляют данные о зарплате с реально поступившими страховыми взносами; так поддельные справки НДФЛ-2 уходят в прошлое. Но и ФНС постепенно получает все больший доступ к имеющимся у банков данным, и в будущем, разумеется, сможет использовать это для более тщательного налогового администрирования.
А вот масштабного прорыва у частных компаний в результате внедрения больших данных ждать пока не стоит.
Фото: Игорь Шапошников, Антон Вергун/тасс
Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl