Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Археологи раскопали традиционный женский убор летописной муромы Археологи раскопали традиционный женский убор летописной муромы

Что археологи нашли в могильнике летописной муромы

N+1
Секс или самовыражение? Что такое кинки-пати — разбираемся подробно Секс или самовыражение? Что такое кинки-пати — разбираемся подробно

Kinky party — что это такое, как и где происходит?

Cosmopolitan
Палеогенетики уточили популяционную историю Таримской впадины Палеогенетики уточили популяционную историю Таримской впадины

Как ученые анализировали геномы древних людей из Таримской впадины

N+1
Прийти в форму за 4 недели Прийти в форму за 4 недели

План питания, который позволит плавно и без вреда для здоровья нормализовать вес

Домашний Очаг
Древнерусские амазонки: как воительницы описывались в былинах и преданиях Древнерусские амазонки: как воительницы описывались в былинах и преданиях

Что фольклористам известно русских воительницах и как они изменились со временем

Forbes
Скотленд-Ярд Скотленд-Ярд

Исторический дом в Лондоне с шотландскими и русскими мотивами в интерьере

AD
Наполеон III: тень дяди-корсиканца Наполеон III: тень дяди-корсиканца

Племянник Наполеона I отчаянно пытался обрести славу великого полководца

Дилетант
На чем ездила элита СССР. Экзотические модели и их владельцы На чем ездила элита СССР. Экзотические модели и их владельцы

Каких «инопланетян» могли повстречать на дорогах граждане Союза

РБК
Бокальчик-другой Бокальчик-другой

Как понять, что с алкоголем пора завязывать

Лиза
На пути к «Чёрному дрозду»: засекреченный проект ВВС США по разработке высотных самолетов-разведчиков На пути к «Чёрному дрозду»: засекреченный проект ВВС США по разработке высотных самолетов-разведчиков

WS-118 — разведывательный самолет с замашками космического аппарата

Популярная механика
Диета «Секреты Лос-Анджелеса»: худеем как звезды Голливуда Диета «Секреты Лос-Анджелеса»: худеем как звезды Голливуда

Этой диеты придерживаются голливудские звезды, чтобы быстро прийти в форму

Cosmopolitan
От «зеленого» винта: к чему приведет обсуждение экологической повестки в авиации От «зеленого» винта: к чему приведет обсуждение экологической повестки в авиации

Почему авиация почти не задействована в экологической повестке?

Forbes
Мадонна, Деми Мур, Шер: как старели бы звезды без пластической хирургии Мадонна, Деми Мур, Шер: как старели бы звезды без пластической хирургии

Как выглядели бы звезды, если бы предпочли держаться подальше от хирургов

Cosmopolitan
Охота на невидимок: как ученые ищут черные дыры Охота на невидимок: как ученые ищут черные дыры

Черные дыры — возможно, самые странные объекты во Вселенной

Forbes
Деми Мур, какой мы ее уже не помним: 20 редких фотографий Деми Мур, какой мы ее уже не помним: 20 редких фотографий

Редкие фотографии Деми Мур

Cosmopolitan
Елена Ленская: Елена Ленская:

Елена Ленская — о своей карьере, браках и настоящей любви

Коллекция. Караван историй
Прощай, мой господин: как разводились в Османской империи Прощай, мой господин: как разводились в Османской империи

Почему мужчины искали «промежуточных» мужей бывшим женам?

Cosmopolitan
Груды бетона: почему фильм «Медея» Александра Зельдовича получился мизогинным Груды бетона: почему фильм «Медея» Александра Зельдовича получился мизогинным

Как фильм про женскую свободу обернулся историей болезни убийцы

Forbes
Японские макаки оказались любителями зимней рыбалки Японские макаки оказались любителями зимней рыбалки

Японские макаки из долины Камикочи научились ловить рыбу

N+1
Топ-5 игр для мощных ПК: испытание для нервов и железа Топ-5 игр для мощных ПК: испытание для нервов и железа

5 лучших игр, которые готовы испытать вашу машину на все 100%.

CHIP
Трудности восприятия: что такое дислексия и как ее обнаружить Трудности восприятия: что такое дислексия и как ее обнаружить

О дислексии многие узнают, когда детство давно позади

РБК
Доброе утро! Доброе утро!

Что есть на завтрак даже тем, кто обычно не голоден

Лиза
Археологи нашли в Южном Туркменистане поселение цивилизации Окса Археологи нашли в Южном Туркменистане поселение цивилизации Окса

Археологи обследовали участок В Южном Туркменистане

N+1
Детей в Древнем Перу отлучили от груди на третьем году жизни Детей в Древнем Перу отлучили от груди на третьем году жизни

Биоархеологи исследовали останки 48 детей, похороненных около 2500 лет назад

N+1
Правила жизни Уэса Андерсона Правила жизни Уэса Андерсона

Правила жизни самого лампового режиссера и сценариста Уэса Андерсона

Esquire
Секретный ингредиент Секретный ингредиент

Какими блюдами любят баловать себя знаменитости?

Лиза
50 красивых женских причесок для коротких волос 50 красивых женских причесок для коротких волос

Эти звездные прически подойдут для разных образов и ситуаций. Бери на заметку!

Cosmopolitan
«Нам было так хорошо вместе»: почему вы на самом деле скучаете по бывшему «Нам было так хорошо вместе»: почему вы на самом деле скучаете по бывшему

Почему тоска и грусть по бывшим все еще беспокоят вас?

Psychologies
Как инвестировать в EdTech с пользой для общества Как инвестировать в EdTech с пользой для общества

Все ли инвестиции в образование считаются «импактом» и как устроен рынок EdTech

Inc.
Метавселенная за $5 млрд: как бренды зарабатывают в выдуманном мире Метавселенная за $5 млрд: как бренды зарабатывают в выдуманном мире

Метавселенная — это реальность, а не будущее

Forbes
Открыть в приложении