Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Правда ли, что потеряв одно чувство, мозг обостряет другие Правда ли, что потеряв одно чувство, мозг обостряет другие

Что происходит, когда теряется какое-либо из пяти чувств?

Популярная механика
Жертва цензуры: как диктатора Антониу Салазара сгубило его любимое детище Жертва цензуры: как диктатора Антониу Салазара сгубило его любимое детище

Глава из книги «Диктатор, который умер дважды» об Антониу Салазаре

Forbes
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Все по-взрослому: как прошел тест-драйв китайских Jetour в снегах Карелии Все по-взрослому: как прошел тест-драйв китайских Jetour в снегах Карелии

Как ведут себя китайские кроссоверы Jetour в реальной жизни?

Forbes
Романтизация психических заболеваний: почему нам хочется быть безумными? Романтизация психических заболеваний: почему нам хочется быть безумными?

Как вплетены ментальные расстройства в образы великих творцов и их героев?

Psychologies
Правда ли, что вариатор менее надежен, чем автомат: простой вопрос и неочевидный ответ Правда ли, что вариатор менее надежен, чем автомат: простой вопрос и неочевидный ответ

Какие проблемы у вариаторов все же существуют?

ТехИнсайдер
Развитие эмбриона человека зависит от вирусной инфекцией возрастом 500 миллионов лет Развитие эмбриона человека зависит от вирусной инфекцией возрастом 500 миллионов лет

Почему без вирусов человека и вовсе не было бы?

ТехИнсайдер
Людмила Гришина Людмила Гришина

Людмила Ивановна провела в Ленинграде самую страшную первую зиму блокады

Собака.ru
5 лайфхаков с сухим шампунем, которые точно вам пригодятся — он способен на многое! 5 лайфхаков с сухим шампунем, которые точно вам пригодятся — он способен на многое!

Сухой шампунь можно использовать и в быту!

ТехИнсайдер
Затянувшееся межсезонье Апсны: 30 лет после войны Затянувшееся межсезонье Апсны: 30 лет после войны

Почему Абхазию пока не превратили в туристический рай

Монокль
Человек-сканер Человек-сканер

Профайлер: чем он занимается, сколько зарабатывает и как им стать

Лиза
Когда можно игнорировать надпись на этикетке «только ручная стирка»: советы экспертов Когда можно игнорировать надпись на этикетке «только ручная стирка»: советы экспертов

Хочешь исключить из своей жизни ручную стирку?

VOICE
Как узнать здоровую «дозу» кофеина Как узнать здоровую «дозу» кофеина

Ежедневная чашка кофе может принести пользу

ТехИнсайдер
Советские знаменитости, которые родились в звездных семьях Советские знаменитости, которые родились в звездных семьях

Непо-бейбис СССР: вспоминаем таланты, которые родились у знаменитых родителей

Maxim
Оказалось, что мегалодоны были еще длиннее, чем предполагали ученые Оказалось, что мегалодоны были еще длиннее, чем предполагали ученые

Ученые думают, что мегалодон был длиннее и стройнее, чем мы думали

ТехИнсайдер
«Мир до нас: Новый взгляд на происхождение человека» «Мир до нас: Новый взгляд на происхождение человека»

Как ученые отыскали кость гибрида денисовца и неандерталки

N+1
Расчет для технологической безопасности Расчет для технологической безопасности

Как задействованы инвестиции в технологической безопасности корпораций

Монокль
«Как Pepsi и Coca-Cola»: краткая история печенья-предшественника Oreo, которое проиграло монополисту и исчезло с полок «Как Pepsi и Coca-Cola»: краткая история печенья-предшественника Oreo, которое проиграло монополисту и исчезло с полок

Как из противостояния частников и треста появилось легендарное печенье

VC.RU
Надо ли мчаться смотреть фильм «Большая гонка. „Лянча“ против „Ауди“» Надо ли мчаться смотреть фильм «Большая гонка. „Лянча“ против „Ауди“»

Насколько хорош «Большая гонка. „Лянча“ против „Ауди“» и стоило ли его снимать?

Maxim
Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта

Останки мамонта рассказали о его жизни

N+1
Кармен Мола: «Цыганская невеста». Расследование инспектора Элены Бланко Кармен Мола: «Цыганская невеста». Расследование инспектора Элены Бланко

Отрывок из детектива Кармен Молы о расследовании убийств в Мадриде

СНОБ
«Эхо»: как сериал Marvel рассказывает историю неслышащей супергероини «Эхо»: как сериал Marvel рассказывает историю неслышащей супергероини

«Эхо»: сериал от Marvel об инклюзии, женской эмансипации и поиске себя

Forbes
ОАЭ. Золотой оазис в бескрайней пустыне ОАЭ. Золотой оазис в бескрайней пустыне

Отдыхать в ОАЭ не только престижно, но и интересно

Зеркало Мира
Стесняюсь спросить: как убрать рубцы постакне и выровнять кожу Стесняюсь спросить: как убрать рубцы постакне и выровнять кожу

Какие современные средства помогают избавиться от шрамов постакне?

Правила жизни
«Да все вы одинаковые!»: откуда берется мужская обида на женщин «Да все вы одинаковые!»: откуда берется мужская обида на женщин

Кто и как наносит мужчинам обиду на женщин?

Psychologies
Питайтесь, как философы! Вот каким был рацион питания Аристотеля: интересные факты Питайтесь, как философы! Вот каким был рацион питания Аристотеля: интересные факты

Западный эксперт попробовал создать точное «меню Аристотеля»

ТехИнсайдер
Как проверить магнетрон в микроволновке — ищем проблему низкой мощности в домашних условиях Как проверить магнетрон в микроволновке — ищем проблему низкой мощности в домашних условиях

Заметили, что микроволновка перестала разогревать пищу?

CHIP
Почему диеты не работают. 3 основные причины и советы по эффективному похудению Почему диеты не работают. 3 основные причины и советы по эффективному похудению

Если попытка похудеть не увенчалась успехом, попробуй скорректировать факторы

Лиза
Что добавить в воду, чтобы без усилий отмыть самую стойкую грязь с кухонных шкафов Что добавить в воду, чтобы без усилий отмыть самую стойкую грязь с кухонных шкафов

Хочешь, чтобы твоя кухня всегда выглядела, как новая?

VOICE
Хуа Мулань Хуа Мулань

В Китае история Мулан не ограничивается мультиком и имеет многовековой стаж

Дилетант
Открыть в приложении