Как ИИ незаметно для пользователей проник в продукты Mail.ru Group
Система искусственного интеллекта появляется, когда возникает задача, которую нельзя решить обычными способами. ИИ помогает государству, корпорациям и стартапам анализировать большие данные, выявлять мошенничество, создавать беспилотные устройства, голосовые помощники, системы компьютерного зрения, а также автоматизировать маркетинг, логистику, управление бизнес-процессами и персоналом. Но хотя про ИИ уже давно все слышали, а разработки на его базе начали появляться в России еще в нулевых, комплексно внедрять его в продукты на нескольких уровнях может только малый круг компаний-профучастников рынка. Узнали у директора по технологиям искусственного интеллекта Mail.ru Group Андрея Калинина, как ИИ пришел в сервисы группы компаний еще более чем 15 лет назад и чего ждать от ИИ в будущем.
Как давно Mail.ru Group дружит с ИИ и зачем ей это нужно
Определимся с тем, что считать искусственным интеллектом. Автоматизирование — это уже зачатки ИИ, но это было очень давно. Когда программист не пишет код, а обучает компьютер — это уже машинное обучение. Кроме того поисковая система Mail.ru, которая работает с 2004 года, с самого появления использовала ИИ для ранжирования результатов поиска.
Еще одно давнее применение ИИ — это Почта Mail.ru и ее система антиспама. Сначала его делали вручную, потом стали собирать статистику с каких IP-адресов приходят сомнительные письма и блокировать их, потом научили компьютер анализировать текст, и если в нем несколько раз встречались условные слова «бесплатно» и «без смс», то в система включала тревожный сигнал. Кроме этого помогали пользователи отмечая, нежелательные письма как спам.Более сложные примеры — это рекламные технологии, умные ленты социальных сетей и все это есть в Mail.ru Group.
В 2019 году Mail.ru Group вместе с другими крупнейшими российскими компаниями создала Альянс в сфере искусственного интеллекта (AI-Russia Alliance). Его участники планируют объединить усилия в отдельных проектах, чтобы ускорить роста российского рынка ИИ.
Звучит сложно, но на практике, это означает партнерство крупнейших компаний из разных сфер — IT, финансов, коммуникаций и промышленности. Как результат — создание образовательных программ в области ИИ, упрощение нормативных барьеров, которые замедляют внедрение новых технологий и совместное создание продуктов на основе ИИ, которые увеличат объем российского рынка с 198,1 миллиардов рублей рублей до 907,4 миллиардов к 2024 году.
Откуда берутся данные для обучения ИИ
Есть разные способы обучения искусственного интеллекта. Это можно делать с помощью размеченных данных — то есть тех, содержание которых известно. Для разметки данных в Mail.ru Group есть служба асессоров. Это несколько сотен человек, которые по инструкции выполняют простые задания. Так для улучшения работы поиска асессоры оценивают насколько документы релевантны запросам пользователей. Также асессоры помогают обучать технологии компьютерного зрения, размечая на данных информацию о содержании текста, наличии объектов и их количестве. На основе этой работы алгоритм компьютерного зрения Mail.ru Group научился определяться сколько человек прямо сейчас стоит в очереди.
Кроме асессоров, в разметке данных помогают группы из тысяч бета-тестеров и модераторов в социальных сетях (например, ВКонтакте и Одноклассниках). В том числе они обучали голосового ассистента Марусю включать музыку. Главная загвоздка была в том, что российские пользователи произносили названия зарубежных исполнителей не так, как носители языка. Чтобы научить Марусю разбирать русский английский в Mail.ru Group создали подюорку из плейлистов бетатестеров и попросили озвучить все названия.
Сбор датасета с помощью реальных людей долгий и дорогой, поэтому кроме него часто используют обучение ИИ на действиях пользователей. Например, для улучшения поиска собирают данные о том, на какие материалы кликают пользователи, и на основе этого предполагают, что эти документы лучше. Естественно, это не дает точный результат, поэтому финальные данные, прежде чем попасть к ИИ фильтруются, чтобы исключать из них треш-контент и эротику. Кликстрим используют и для анализа нажатий на кнопку «Это спам», для отслеживания реакции на контент системе рекомендаций соцсетей. При этом ИИ ничего не знает о содержании контента, но видит реакцию пользователей на него и учится ее предсказывать.