Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Археологи нашли под Анапой редкий перстень с кельтским воином со щитом Археологи нашли под Анапой редкий перстень с кельтским воином со щитом

Археологи представили результаты исследования двух редких металлических перстней

N+1
12 способов повысить продуктивность в течение дня 12 способов повысить продуктивность в течение дня

5-минутные действия, которые приведут к грандиозным результатам

Psychologies
Математик — о том, зачем идти в науку и как себя вести молодому ученому Математик — о том, зачем идти в науку и как себя вести молодому ученому

Почему наука — это потребность, а не вопрос выбора

РБК
«Разбогатеть нам мешают внутренние демоны» «Разбогатеть нам мешают внутренние демоны»

Говорим с коучем о новой валюте – энергии

Psychologies
Открываем сезон: 10 съедобных грибов и как их отличить от ложных Открываем сезон: 10 съедобных грибов и как их отличить от ложных

На что обратить внимание в сезон «тихой охоты»?

TechInsider
Что такое «углы Джоли» и зачем их все хотят? Что такое «углы Джоли» и зачем их все хотят?

«Углы Джоли» — это тренд в косметологии, выделяющий линию скул и подбородка

Cosmopolitan
Горный перевал: как Toyota Land Cruiser 300 справился с дорогами в Дагестане Горный перевал: как Toyota Land Cruiser 300 справился с дорогами в Дагестане

Toyota представила новую версию легендарного Land Cruiser с дизельным двигателем

Forbes
Как установить Windows 11 на совместимый и даже несовместимый ПК Как установить Windows 11 на совместимый и даже несовместимый ПК

Как установить Windows 11 на компьютер несколькими разными способами

CHIP
Твой нарядный ковбой: как рэпер Lil Nas X в 22 года стал мировой звездой Твой нарядный ковбой: как рэпер Lil Nas X в 22 года стал мировой звездой

Как стать живой легендой в 22 года, не успев даже выпустить музыкальный альбом?

ЖАРА Magazine
Что такое суперизвержение: как один вулкан может вызвать катастрофу планетарного масштаба Что такое суперизвержение: как один вулкан может вызвать катастрофу планетарного масштаба

Как одно сверхизвержение вулкана может катастрофически повлиять на климат?

Популярная механика
Как два друга бросили работу в офисе и создали приложение для барбершопов за $750 млн Как два друга бросили работу в офисе и создали приложение для барбершопов за $750 млн

Как Сонж ЛаРон и Дэйв Салвант создали самый перспективный стартап

Forbes
«Счастье — это реальность минус ожидания». Интервью о психологии семьи «Счастье — это реальность минус ожидания». Интервью о психологии семьи

Автор книги «Поколение "сэндвич"» — о счастье и языке между поколениями

РБК
Волшебный топ: 7 отличных фильмов про магию и колдовство Волшебный топ: 7 отличных фильмов про магию и колдовство

Многим хочется верить в сказки, поэтому мы собрали для вас 7 колдовских фильмов

Cosmopolitan
Химики разобрались во влиянии анионов на растворимость полимеров Химики разобрались во влиянии анионов на растворимость полимеров

Плоские поверхности разрушают сетку водородных связей воды, упрощая адсорбцию

N+1
Где найти в сутках 25-й час: секреты от эксперта  по тайм-менеджменту Где найти в сутках 25-й час: секреты от эксперта  по тайм-менеджменту

Как все успевать? И как это удается другим?

Psychologies
Крипто-арт: будущая реальность Крипто-арт: будущая реальность

Крипто-арт: его истоки, особенности и перспективы

СНОБ
Цифровой след человека: что компании, военные и хакеры уже знают о нас Цифровой след человека: что компании, военные и хакеры уже знают о нас

Отрывок из книги Евгения Черешнева «Форма жизни №4» о персональных данных

Forbes
Разработчик дисплеев дополненной реальности WayRay создал электромобиль для зумеров Разработчик дисплеев дополненной реальности WayRay создал электромобиль для зумеров

WayRay создала трехместный электрокар с дисплеями дополненной реальности

Forbes
Чтобы обнаружить психопата, достаточно всего одного вопроса Чтобы обнаружить психопата, достаточно всего одного вопроса

Можно ли обнаружить у себя или у окружающих черты психопата?

Cosmopolitan
Мастер мира: все о главном представителе киберпанка на планете Жан-Мишеле Жарре Мастер мира: все о главном представителе киберпанка на планете Жан-Мишеле Жарре

Как 73-летнему французу удается оставаться главным представителем киберпанка

Популярная механика
«Хорошее время, чтобы быть футболисткой»: как развивать женский спорт в России «Хорошее время, чтобы быть футболисткой»: как развивать женский спорт в России

Как добиться равенства в спорте в России?

Forbes
Трехколесная мануфактура Трехколесная мануфактура

Ирбитский мотоциклетный завод сумел вывести свой бренд на мировой уровень

Эксперт
7 советов на каждый день, чтобы справиться с тревогой и стрессом 7 советов на каждый день, чтобы справиться с тревогой и стрессом

Семь способах помочь себе справиться с тревожным расстройством

Популярная механика
Мадонна, Деми Мур, Шер: как старели бы звезды без пластической хирургии Мадонна, Деми Мур, Шер: как старели бы звезды без пластической хирургии

Как выглядели бы звезды, если бы предпочли держаться подальше от хирургов

Cosmopolitan
«Она похожа на соль — улучшит любое блюдо, если не переборщить»: как инженер-пианист создал гитарную педаль Big Muff «Она похожа на соль — улучшит любое блюдо, если не переборщить»: как инженер-пианист создал гитарную педаль Big Muff

Майк Мэтьюс придумал «золотой стандарт» гитарных педалей с искажением

VC.RU
Секс или самовыражение? Что такое кинки-пати — разбираемся подробно Секс или самовыражение? Что такое кинки-пати — разбираемся подробно

Kinky party — что это такое, как и где происходит?

Cosmopolitan
Минералка без газа и кофе с маслом: что пить на интервальном голодании Минералка без газа и кофе с маслом: что пить на интервальном голодании

Можно ли пить и что именно во время интервального голодания?

Cosmopolitan
Компьютер не видит жесткий диск: что делать? Компьютер не видит жесткий диск: что делать?

Почему компьютер не видит жесткий диск и как решить эту проблему?

CHIP
Большое плавание Большое плавание

Ольга Бодрова и Валерий Степанов — о любви, семье и моде

Vogue
Всемирная выставка в Дубае: что смотреть на Экспо 2020 Всемирная выставка в Дубае: что смотреть на Экспо 2020

Самые заметные и яркие павильоны на Всемирной выставке

РБК
Открыть в приложении