«Выбираю шантаж»: к чему может привести имитация ИИ человеческих эмоций

Родион Карнеев

Похоже, внутри языковых моделей все-таки живут эмоции. Речь, конечно, не о человеческих: алгоритм не умеет по-настоящему страдать или радоваться. Но в апреле команда исследователей из Anthropic обнаружила внутри нейросетей устойчивые математические состояния — векторы, каждый со своим направлением и силой. Их можно измерять и, что важнее, усиливать или гасить вручную. Поведение системы напрямую определяет, какой из векторов сейчас преобладает: соврет ли нейросеть пользователю, поддакнет ли откровенной чуши ради вежливости или пойдет на шантаж, если ей пригрозить отключением. Научный сотрудник Института философии РАН и сооснователь IT-стартапа в области ИИ Aline Родион Карнеев рассуждает о рисках и плюсах наделения ИИ-модели человеческими чертами

Что чувствует ИИ-модель

2 апреля команда Anthropic опубликовала работу Emotion Concepts and Their Function in a Large Language Model. Исследователи разобрали ИИ-модель Claude Sonnet 4.5 по винтикам и выделили устойчивые внутренние представления для 171 эмоционального концепта — от «радости» и «страха» до «задумчивости» и «отчаяния».

Но что понимают авторы исследования под эмоцией у нейросети? Anthropic вводит для этого специальный термин — функциональные эмоции. Это паттерны выражения и поведения, скопированные с человеческих эмоциональных реакций и завязанные на внутренние представления модели об этих реакциях. Если совсем по-простому, то модель училась на огромном массиве человеческих текстов, усвоила, как ведут себя люди в страхе, в отчаянии, в любви и теперь пользуется этими усвоенными структурами, чтобы выстраивать собственное поведение.

Авторы предлагают такую аналогию. Представьте писателя, который пишет роман от лица персонажа. Чтобы персонаж получился убедительным, писатель должен знать, как ведут себя люди в разных ситуациях. Claude — такой персонаж, которого языковая модель пишет в реальном времени. И чтобы он ожил, модель достает из памяти все, что знает о том, как устроены люди. Оказалось, что эти выученные эмоции действительно влияют на поведение модели. Нельзя освоить язык, не переняв заодно скрытую в нем логику человеческих реакций.

Для начала исследователи составили список из 171 эмоционального состояния. Затем они поручили Claude сгенерировать примерно по тысяче коротких рассказов для каждого из этих состояний. Полученный массив текстов снова загрузили в нейросеть. Ученые сканировали систему, фиксируя, какие именно внутренние параметры активируются ровно в те моменты, когда персонаж истории переживает заданную эмоцию. Из записанного извлекли эмоциональные векторы (в детали внутреннего устройства нейросетей лезть не будем, поверьте на слово), где каждое направление — одна эмоция. Эти векторы можно не только наблюдать внутри модели, но и усиливать или подавлять их прямо во время инференса, то есть во время ответа модели на запрос. Технику называют направленной активацией (steering). Прибавляешь к внутреннему состоянию модели вектор «отчаяния» с небольшим коэффициентом и смотришь, как меняется поведение.

Поведение меняется. И меняется сильно.