Прогресс не остановить: почему важно развивать искусственный интеллект в смартфонах
В 2013 году герой Хоакина Феникса в фильме «Она» общался с голосовым помощником Самантой как с реальным человеком и даже влюблялся в нее. Спустя 10 с лишним лет в наших гаджетах живут помощники с приятными голосами и неплохо шутят, но в остальном все еще не могут приблизиться к Саманте. Что предстоит сделать ученым и разработчикам, чтобы ИИ совершил этот рывок? Или мы остановимся в этой точке? О прогрессе ИИ в мобильных устройствах рассуждает лауреат премии Yandex ML Prize, научный сотрудник МФТИ и Yandex Research ML Residency, математик Александр Безносиков.
Распознавание лиц и голоса
ИИ в смартфонах стали использовать уже в нулевых, когда появились камеры. Но вычислительных ресурсов для распознавания фотографий в компьютерах и смартфонах не хватало, поэтому алгоритмы работали не так точно, как хотелось бы. Например, объем оперативки Samsung X600 в 2003 году составлял несколько десятков Мб, а разрешение камер — всего 0,3 Мп. На таких скромных мощностях можно было зеркалить изображения, добавлять рамки и экспериментировать со снимками.
В начале 2010-х смартфоны стали мощнее. С развитием машинного обучения создавались более продвинутые алгоритмы обработки изображений — сверточные нейронные сети. Эти нейронки помогали компьютерам анализировать — то есть видеть и понимать — изображение и видео. Так, искусственный интеллект стал предлагать фотографу сделать удачный ракурс, размыть фон или увеличить резкость, устранить шумы или эффект красных глаз. А затем пришло время голосовых помощников.
- 2011 год. Apple разработала Siri — голосового помощника, ставшего одной из первых массово применяемых систем ИИ в смартфонах.
- 2012 год. Google выпустила персонализированный поисковый сервис Google Now. Вскоре к нему добавили функции шагомера, напоминаний, сервиса для покупки авиабилетов. Через пять лет его заменил Pixel Launcher.
- 2016 год. Google разработала улучшенную версию голосового помощника Google Assistant и умную клавиатуру Gboard. Apple представила SiriKit — набор инструментов, позволяющий разработчикам встраивать Siri в приложения.
Генеративные модели
В то же время в смартфонах появились генеративные модели, алгоритмы которых могли в том числе создавать и изменять фото, видео и текст. Вы наверняка помните фильтры и эффекты в Instagram (принадлежит Meta, которая признана экстремистской организацией и запрещена в России) 2010 года. Другой пример использования генеративных моделей — фильтры на смартфонах HTC (2012 год), которые можно было применять прямо во время съемки, аватары-мультяшки в приложении Bitmoji (2014 год), а также функции AR в Snapchat (2015 год).