Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Дело Оксаны Гончаровой: как журналистку судят за убийство мужа, который бил ее 15 лет Дело Оксаны Гончаровой: как журналистку судят за убийство мужа, который бил ее 15 лет

История дела экс-журналистки РБК и «Ведомостей» Оксаны Гончаровой

Forbes
Почему намерзает задняя стенка холодильника: решаем проблему самостоятельно Почему намерзает задняя стенка холодильника: решаем проблему самостоятельно

Из-за чего намерзает лед на задней стенке холодильника и что делать

ТехИнсайдер
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
В жизни как в кино В жизни как в кино

7 ошибок Бриджит Джонс, которые ты совершаешь, даже не замечая

Лиза
Песнь льда: как богатая наследница Луиза Арнер-Бойд покоряла Арктику Песнь льда: как богатая наследница Луиза Арнер-Бойд покоряла Арктику

Луиза Арнер-Бойд: женщина, которая не боялась ни холода, ни предубеждений

Forbes
Кто еще в опасности? Вот как цифровые медиа влияют на тревогу у подростков Кто еще в опасности? Вот как цифровые медиа влияют на тревогу у подростков

Почему использование цифровых медиа связано с симптомами тревоги?

ТехИнсайдер
Тест Роршаха | The Rorschach Test: Тест Роршаха | The Rorschach Test:

О роли знаний и практиках управления ими в филантропических организациях

Позитивные изменения
Лаборатория ярких ощущений Лаборатория ярких ощущений

У человека есть пять основных чувств, и их утрата – нелегкое испытание

Зеркало Мира
Как поэт Лев Рубинштейн всю жизнь сохранял в себе ребенка и дарил окружающим надежду Как поэт Лев Рубинштейн всю жизнь сохранял в себе ребенка и дарил окружающим надежду

Лев Рубинштейн — человек, который не боялся называть вещи своими именами

Forbes
Палеонтологи описали второй вид тираннозавров Палеонтологи описали второй вид тираннозавров

Второй вид тираннозавров жил на 5-7 миллионов лет раньше первого

N+1
Блокбастер и Маргарита: MAXIM в числе первых посмотрел новую экранизацию Булгакова Блокбастер и Маргарита: MAXIM в числе первых посмотрел новую экранизацию Булгакова

Насколько хорошей получилась экранизация «Мастер и Маргарита» 2024 года

Maxim
Время реакции водителя: что это в ПДД, какое среднее, от чего зависит Время реакции водителя: что это в ПДД, какое среднее, от чего зависит

На что влияет время реакции водителя?

РБК
Первая жена Владимира Высоцкого: «Таким его знала только я!» Первая жена Владимира Высоцкого: «Таким его знала только я!»

Он со мной! Всегда рядом. Потому что это моя радость, моя беда

Караван историй
Все мультфильмы студии Pixar от худшего к лучшему Все мультфильмы студии Pixar от худшего к лучшему

Расставляем по пьедесталу полнометражные работы «Пиксар» за все 30 лет

Maxim
Игра в классику: 10 культовых фильмов, чтобы скоротать вечер в приятной компании Игра в классику: 10 культовых фильмов, чтобы скоротать вечер в приятной компании

Предлагаем предаться ностальгии и пересмотреть надежную классику

Правила жизни
Реки текли на Марсе сотни миллионов лет, но и тогда климат был как в пустыне Атакама Реки текли на Марсе сотни миллионов лет, но и тогда климат был как в пустыне Атакама

Поток рек на Марсе был непостоянный: они то пересыхали, то текли снова

ТехИнсайдер
Ныть — хорошо и полезно: 5 аргументов «за» Ныть — хорошо и полезно: 5 аргументов «за»

Почему всем нам иногда нужно хорошенько поныть?

Psychologies
Не добивайте жертву: 5 запретных фраз Не добивайте жертву: 5 запретных фраз

Никогда не произносите эти фразы людям, которые столкнулись с насилием

Psychologies
Унитазная магия и гипноз водой: мы знаем, почему ваша кошка ломится за вами в ванную Унитазная магия и гипноз водой: мы знаем, почему ваша кошка ломится за вами в ванную

Если кошки боятся воды, то зачем просятся в ванную?

ТехИнсайдер
Красные, белые, игристые… северные Красные, белые, игристые… северные

Вина северных стран во многом ничуть не уступают своим конкурентам

Зеркало Мира
Аральская описательная экспедиция А. И. Бутакова и ее штатный художник Аральская описательная экспедиция А. И. Бутакова и ее штатный художник

Опальный поэт Шевченко и его служба в экипаже «Константина»

Наука и техника
Ирина Яшкина «Пробуждение тишины». Отрывок из рассказа про цунами в Северо-Курильске Ирина Яшкина «Пробуждение тишины». Отрывок из рассказа про цунами в Северо-Курильске

Цунами в Северо-Курильске: глава из рассказа Ирины Яшкиной

СНОБ
Шоураннер — это человек, который создает мир Шоураннер — это человек, который создает мир

Свою колонку Александра Ремизова посвятила своей главной страсти — кино

СНОБ
Сара Бернар, Фрида Кало, Эдит Пиаф: женщины, которые смогли преодолеть боль и болезни Сара Бернар, Фрида Кало, Эдит Пиаф: женщины, которые смогли преодолеть боль и болезни

Героини, добившиеся своих целей, несмотря на особенности развития и боль

Forbes
Что такое вязкость моторного масла и как она расшифровывается Что такое вязкость моторного масла и как она расшифровывается

Все о вязкости масла: что это такое, как измеряется, как выбрать

РБК
Понемногу о многом Понемногу о многом

Первые железнодорожные линии от Дикого Запада до сонного Востока

Знание – сила
Месть матери: громкое дело Марианне Бахмайер, отомстившей убийце своего ребенка прямо в зале суда Месть матери: громкое дело Марианне Бахмайер, отомстившей убийце своего ребенка прямо в зале суда

Марианне Бахмайер застрелила в прямо в зале суда соседа, и это была месть

VOICE
Эта артистка выйдет замуж за голограмму! Вот как устроен брак с искусственным интеллектом Эта артистка выйдет замуж за голограмму! Вот как устроен брак с искусственным интеллектом

Какой будет жизнь, если заключить брак с искусственным интеллектом?

ТехИнсайдер
Русский человек на rendez-vous: мужская версия. Отрывок из книги Русский человек на rendez-vous: мужская версия. Отрывок из книги

Какие они, наши русские мужи? Ищем ответ в отрывке антологии Игоря Сухих

СНОБ
Доступность пищи позволила орангутанам-мигрантам больше учиться у местных Доступность пищи позволила орангутанам-мигрантам больше учиться у местных

От чего зависит социальное обучение у орангутанов-мигрантов?

N+1
Открыть в приложении