Санкт-Петербургский университетНаука
На лице написано
Люди идентифицируют конкретные эмоции лучше, чем нейросеть. Это в ходе исследования выяснили психологи СПбГУ.
 Интересно, что изначально гипотеза была прямо противоположная. «Мы предполагали, что нейросеть может точнее человека распознавать эмоции. Почему? Потому что на человека влияет, во-первых, социальный и индивидуальный опыт, а во-вторых, лингвистические особенности. В частности, в русском языке слова, обозначающие эмоции, могут описывать разные моменты одного и того же процесса. Это, как мы считали, затрудняет идентификацию эмоций. Нейросеть менее зависима от таких факторов, хотя в определенной мере наследует их от создателей», — рассказывает Анастасия Владимировна Сладкоштиева, психолог, магистрант СПбГУ (программа «Когнитивные исследования»), автор исследования.
 Новая база данных
Ученые как в России, так и за рубежом уже изучали способность нейросетей распознавать эмоции по мимике и выражению лиц. Однако при этом для обучения нейросети и последующих опытов применялись карточки лиц, на которых эмоции были сыграны по шаблону, заданному системой кодирования лицевых движений FACS (Facial Action Coding System. — Прим. ред.). Одним из ее авторов является Пол Экман, получивший в нашей стране широкую известность после выхода популярного сериала «Обмани меня» (Lie to me). Психологи СПбГУ подняли планку выше. В ходе своего исследования они использовали базу данных, составленную под руководством российского психолога и исследователя Анастасии Владимировны Петраковой. При создании данного dataset (набора изображений) модели вольно демонстрировали эмоцию, опираясь исключительно на свои представления и опыт, а не на заданный стандарт. Это значит, что мимические проявления на таких фотокарточках естественнее. «Экологическая валидность данной базы выше, так как она позволяет в большей степени приблизить условия эксперимента к реальности», — подчеркивает Анастасия Сладкоштиева.
В ходе исследования испытуемым предъявлялось 248 цветных изображений лиц, выражающих 14 различных эмоций с разной степенью интенсивности (малой, средней большой). «Мы предполагали, что чем более ярко выражена эмоция на лице, тем точнее участники эксперимента будут ее категоризировать», — поясняет психолог. Эти же изображения предъявлялись и нейросети teachable machine, предварительно обученной на dataset ImageNet. Дополнительно психологи СПбГУ дообучили ее на 717 изображениях из набора, созданного российскими учеными. Данные снимки в последующем не вошли в экспериментальную выборку, поэтому стимульный материал, используемый в ходе испытаний, был одинаково незнаком как нейросети, так и людям.
 Помеха или преимущество?
Проанализировав результаты, психологи выяснили, что преимущество оказалось на стороне людей только при определении точных категорий эмоций. С этой задачей люди справились заметно лучше, чем искусственный интеллект. «То есть он идентифицирует эмоциональные семейства примерно на таком же уровне, что и люди. Например, правильно относит радость и веселье к одному семейству — удовольствию, но допускает много ошибок, если нужно точно определить, какая именно эмоция выражена на изображении: радость или веселье. Люди видят между ними разницу, в отличие от нейросети», — рассказывает Анастасия Сладкоштиева.
По всей видимости, то, что первоначально исследователи относили к факторам, мешающим точно распознавать эмоции, наоборот, является преимуществом. «Мы считали, что различные социальные факторы, личный опыт и лингвистические особенности негативно влияют на определение эмоций. Человек может использовать разные слова, чтобы описать одну и ту же эмоцию. Например, в одной ситуации он назовет ее радостью, а в другой — весельем. При этом в выражении мимики не будет отличий. Мы думали, что это будет помехой для человека в определении эмоций. Однако, как оказалось, это ему помогает», — объясняет Анастасия Сладкоштиева и делает оговорку, что исследование проводилось в рамках одной культуры — культуры России. Возможно, если бы испытуемые определяли эмоции по выражению лиц представителей других стран, результаты были бы иными. Это требует дополнительного изучения. «Пока можно с определенной долей уверенности говорить о том, что существуют какие-то мимические паттерны даже на уровне четкой категоризации эмоций, а не только на уровне семейства, как мы предполагали изначально», — добавляет психолог.
По ее мнению, именно это, по всей вероятности, и стало слабым местом нейросети. «Она сама по себе, как нейросеть для распознавания изображений с простой архитектурой, без специфических настроек, сделана так, что ориентируется на один-единственный паттерн. Если их несколько, как в случае с выражением той же радости, нейросеть справляется с этим хуже, в отличие от человека. Для нейросети есть только одна модель, на которую она ориентируется, отсюда и возникает много ошибок. Вариативность в жизни оказывается больше, чем нейросеть способна определить. Также для ее обучения нужно очень много данных, а у нас был ограниченный набор изображений», — поясняет Анастасия Сладкоштиева.
Смотрю, но не вижу
Примечательно, что и люди, и нейросеть плохо справились с идентификацией эмоции интереса. По мнению исследователя, это может быть связано с тем, что как раз он не обладает специфическими мимическими паттернами.
Интересно, что хуже всего нейросеть определяет удивление. Однако ничего удивительного в этом, как считает Анастасия Сладкоштиева, нет. Дело в том, что данную эмоцию путают со страхом и люди тоже. Это известный ученым факт, он был зафиксирован еще в исследованиях Пола Экмана. «Я полагаю, что нейросеть, скорее всего, маркировала эмоцией страха карточки с лицами, выражающими удивление. Это связано с тем, что обе эмоции имеют схожие элементы: например, поднятые вверх брови и расширенные глаза, — поясняет психолог. — В нашем исследовании испытуемые значительно лучше нейросети различали эти две эмоции. Это также служит доказательством тому, что у людей есть преимущества, которые позволяют им „считывать“ выражение лиц корректнее».
Помимо удивления, радости и интереса, искусственный интеллект также имел трудности с идентификацией тревоги, отчаяния, отвращения и даже грусти. «Скорее всего, нейросеть путала грусть, отчаяние и тревогу между собой», — говорит Анастасия Сладкоштиева.
Есть над чем подумать
Анализируя результаты исследования, психологи СПбГУ отметили еще один важный момент — испытуемые продемонстрировали в целом низкий уровень распознавания эмоций. Всего 22 % эмоций были идентифицированы респондентами правильно на уровне точной категоризации. У нейросети этот показатель и того ниже — 11 %. Значительно лучше справились с определением валентности эмоции — 73 % и 62 % соответственно. «Хотя это уже неплохо, но показатель значительно ниже, чем в аналогичных исследованиях, где применялась база данных FACS. Там этот показатель у людей был выше 90 %», — отмечает Анастасия Сладкоштиева. По мнению университетских ученых, причина такой разницы лежит в применяемых базах данных эмоциональных лиц. Психологи СПбГУ, в отличие от своих коллег, использовали карточки с изображением эмоций, приближенным к естественному. «Это заставляет задуматься о том, насколько вообще валидны наборы изображений, сыгранные актерами по определенной кальке. Насколько они в действительности позволяют измерить и изучить то, для чего были разработаны. Это важно, — рассуждает Анастасия Сладкоштиева. — Оказывается, более экологически валидные dataset дают возможность зафиксировать не только иные результаты, но и гораздо больше нюансов для дальнейших исследований».
Факт
Результаты исследования «Классификация мимики эмоциональных лиц людьми и нейронной сетью на материале экологически валидной базы изображений» опубликованы в научном журнале «Вестник Санкт-Петербургского университета. Психология» (2025 год, том 15, вып. 1).
Факт
Исследование проведено под руководством Алексея Сергеевича Стародубцева, к. псих. н., младшего научного сотрудника СПбГУ (кафедра общей психологии).
Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl
