Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Komatsu показала лунный экскаватор и подводный бульдозер Komatsu показала лунный экскаватор и подводный бульдозер

Подводный электрический робобульдозер и макет лунного беспилотного экскаватора

N+1
Тетушка Тильда, которая помнит все Тетушка Тильда, которая помнит все

«Память»: первый англоязычный фильм Апичатпонга Вирасетакуна

Weekend
Древние люди появились в Европе почти 2 миллиона лет назад Древние люди появились в Европе почти 2 миллиона лет назад

Дата появления древних людей в Европе отодвинулась на полмиллиона лет

ТехИнсайдер
Андрей Писарев: «Ожидания у всех одинаковые — выгода и уникальность» Андрей Писарев: «Ожидания у всех одинаковые — выгода и уникальность»

Будущее рынка — в усилении персонализации, развитии подписочной модели

РБК
Обманчивая красота чисел: почему не стоит так доверять цифрам при принятии решений Обманчивая красота чисел: почему не стоит так доверять цифрам при принятии решений

Как не попасть в ловушку чисел в мире, который состоит из них

Forbes
Эмили Ратаковски выпустила книгу Эмили Ратаковски выпустила книгу

Интервью с Эмили Ратаковски в преддверии выхода ее книги "Мое тело"

Esquire
Как строили Бурдж-Халифа и почему он до сих пор не упал: занимательное видео Как строили Бурдж-Халифа и почему он до сих пор не упал: занимательное видео

Как строили высочайшее здание в мире — Бурдж-Халифа

Популярная механика
Оптимистическая трагедия Оптимистическая трагедия

Софи Марсо — об отношении к эвтаназии и работе с Франсуа Озоном

Grazia
А ты умеешь? Как правильно ходить – объясняет эксперт А ты умеешь? Как правильно ходить – объясняет эксперт

Оказывается, ходить нужно не только много и часто, но и правильно

VOICE
От «Лила Чакра» до «Правда или действие»: 10 игр для нескучных вечеров От «Лила Чакра» до «Правда или действие»: 10 игр для нескучных вечеров

Обещай, что отлично повеселишься!

Playboy
12 французских фильмов про любовь и страсть 12 французских фильмов про любовь и страсть

Самые волнующие французские фильмы, которые заставят твое сердце биться чаще

Лиза
Семь кругов достоверности. Как понять, что найдена внеземная жизнь Семь кругов достоверности. Как понять, что найдена внеземная жизнь

Как сделать поиск внеземной жизни более конструктивным

СНОБ
Великолепная рыбалка Великолепная рыбалка

Цапля не спит — она видит всё!

Наука и жизнь
Рассеянный склероз: причины, симптомы, лечение Рассеянный склероз: причины, симптомы, лечение

Что такое рассеянный склероз и можно ли его вылечить

РБК
Второе пришествие Второе пришествие

Камбэк Александра Терехова — с брендом Sashaverse

Vogue
Антропологи нашли на Карибах череп старейшего прокаженного Америки Антропологи нашли на Карибах череп старейшего прокаженного Америки

На Карибах мог функционировать лепрозорий

N+1
«Пока однажды я не поймала плечом пулю». Отрывок из книги белорусской писательницы Юли Артемовой «Пока однажды я не поймала плечом пулю». Отрывок из книги белорусской писательницы Юли Артемовой

Отрывок из книги Юлии Артемовой «Я и есть революция» — о любви и взрослении

СНОБ
О чем думают девушки, когда занимаются сексом на одну ночь? О чем думают девушки, когда занимаются сексом на одну ночь?

Какие подводные камни кроются за согласием «просто разок поехать к тебе»

Maxim
Когда на Руси появились пряники? Когда на Руси появились пряники?

Выпечка, похожая на пряники, появилась на Руси примерно в IX веке

Культура.РФ
«Костик»: от К. С. до К. Ю. Постановка «Чайки» Дмитрия Крымова «Костик»: от К. С. до К. Ю. Постановка «Чайки» Дмитрия Крымова

Самый чеховский спектакль на российской сцене

СНОБ
На отдых в офлайн: 8 сервисов по избавлению от интернет-зависимости На отдых в офлайн: 8 сервисов по избавлению от интернет-зависимости

Приложения для смартфонов, которые помогают реже пользоваться смартфонами

РБК
Какие утверждения об Абрамовиче и Путине суд в Лондоне счел необоснованными Какие утверждения об Абрамовиче и Путине суд в Лондоне счел необоснованными

Девять утверждений в книге «Люди Путина» порочат репутацию Романа Абрамовича

Forbes
Прилежный ученик Прилежный ученик

Иван Стрешинский стал первым в России менеджером-миллиардером

Forbes
«Канувшие в Лету»: графические форматы, о которых мало кто помнит «Канувшие в Лету»: графические форматы, о которых мало кто помнит

Первые графические стандарты

VC.RU
10 иллюзий, с которыми нужно расстаться во взрослой жизни 10 иллюзий, с которыми нужно расстаться во взрослой жизни

Иллюзии, что поддерживали нас в детстве, в старшем возрасте только мешают

Psychologies
Успеть до 15:00: отзывы о диете, разрешающей есть всё, но только до середины дня Успеть до 15:00: отзывы о диете, разрешающей есть всё, но только до середины дня

Система питания, при которой последний прием пищи происходит в 15 часов

Cosmopolitan
PodRide: самый крутой электробайк или самый странный электромобиль PodRide: самый крутой электробайк или самый странный электромобиль

"Электрокар" весом в 70 кг имеет гибридную схему: в нем есть педали и мотор

CHIP
Борьба «хулигана» с экспертами Борьба «хулигана» с экспертами

Социолог борется с научной экспертизой за post-truth и демократию в науке

Эксперт
Кадровый город: как устойчивая городская среда помогает бизнесу Кадровый город: как устойчивая городская среда помогает бизнесу

Чем комфортнее город, тем вероятнее компания решит проблему дефицита кадров

Forbes
Спи в носках! Для этого есть 5 важных причин Спи в носках! Для этого есть 5 важных причин

Не вредно ли спать в носках?

Cosmopolitan
Открыть в приложении