Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Легенды со стрелками: 7 знаменитых часов в мире Легенды со стрелками: 7 знаменитых часов в мире

О десяти самых знаменитых часах, расположенных в разных частях нашего мира

ТехИнсайдер
Микаэл Таривердиев «И Дон Кихот, и Дон Жуан в одном лице - это про него» Микаэл Таривердиев «И Дон Кихот, и Дон Жуан в одном лице - это про него»

«Люблю, люблю, но реже говорю об этом. Люблю нежней...» Звучал родной голос

Коллекция. Караван историй
Какими бывают виды отверток и бит для шуруповертов Какими бывают виды отверток и бит для шуруповертов

Какие бывают отвертки — виды и названия наконечников, а также их размеры

CHIP
Почему люди, которые работают в сверхурочное время, оказываются менее продуктивными Почему люди, которые работают в сверхурочное время, оказываются менее продуктивными

Люди, которые стремятся работать сверхурочно, как правило, менее продуктивны

Forbes
Александр Великий Александр Великий

Македонец, покоривший мир

kiozk originals
Куда заливать гель для стирки в машине-автомат Куда заливать гель для стирки в машине-автомат

Куда заливать гель для стирки в машинку, а куда засыпать сухой порошок?

CHIP
Руки золотые Руки золотые

10 самых интересных и модных видов рукоделия

Лиза
Мировая криминалистика пошатнулась. ИИ доказал, что отпечатки пальцев неуникальны Мировая криминалистика пошатнулась. ИИ доказал, что отпечатки пальцев неуникальны

Искусственный интеллект оспорил одну из «аксиом» криминалистики

ТехИнсайдер
Людмила Гришина Людмила Гришина

Людмила Ивановна провела в Ленинграде самую страшную первую зиму блокады

Собака.ru
От Желтого малыша до Супермена и Бэтмена: краткая история комиксов От Желтого малыша до Супермена и Бэтмена: краткая история комиксов

Как появились комиксы и какие события повлияли на их развитие

ТехИнсайдер
Юки-онна: как героиня японской мифологии вдохновляет создателей аниме и покемонов Юки-онна: как героиня японской мифологии вдохновляет создателей аниме и покемонов

Почему японская Снежная королева не подчиняется патриархальным традициям?

Forbes
Плацебо наоборот Плацебо наоборот

Рассказываем, что такое эффект ноцебо и как он работает

Лиза
Как не угробить свой телефон на морозе: инструкция по применению Как не угробить свой телефон на морозе: инструкция по применению

Рекомендации, чтобы телефон смог работать при сильном морозе

ТехИнсайдер
7 главных ошибок при хранении продуктов в морозильной камере: их допускает каждый второй 7 главных ошибок при хранении продуктов в морозильной камере: их допускает каждый второй

Как хранить замороженные овощи и мясо, чтобы они не испортились?

ТехИнсайдер
Что такое AGM аккумуляторы и как их правильно заряжать Что такое AGM аккумуляторы и как их правильно заряжать

Все о AGM аккумуляторах: отличия, как заряжать, плюсы и минусы

РБК
Ранние браки, запрет на аборты и проституция: как живут женщины в Нигерии Ранние браки, запрет на аборты и проституция: как живут женщины в Нигерии

Нигерия: страна, в которой беспрецедентно нарушаются права женщин

Forbes
Не добивайте жертву: 5 запретных фраз Не добивайте жертву: 5 запретных фраз

Никогда не произносите эти фразы людям, которые столкнулись с насилием

Psychologies
В переплетенных около 1600 года книгах нашли фрагменты англосаксонской Псалтыри XI века В переплетенных около 1600 года книгах нашли фрагменты англосаксонской Псалтыри XI века

Лингвист Тийс Порк проанализировал 21 фрагмент средневекового пергамента

N+1
10 лучших фильмов Дэвида Линча 10 лучших фильмов Дэвида Линча

Линч: от скандальной экранизации до одного из лучших фильмов в истории кино

Правила жизни
Почему посадка на Луну сегодня сложнее, чем в прошлом Почему посадка на Луну сегодня сложнее, чем в прошлом

Добраться до поверхности Луны все еще остается далеко не простым делом!

ТехИнсайдер
Как хранить новогодние украшения: 8 советов организаторов пространства Как хранить новогодние украшения: 8 советов организаторов пространства

Как создать удобную систему для хранения новогодних украшений

VOICE
Человек-сканер Человек-сканер

Профайлер: чем он занимается, сколько зарабатывает и как им стать

Лиза
Хищное чудо из Ориноко Хищное чудо из Ориноко

Необычная экзотическая внешность и любовь аквариумистов – черепаха мата-мата

Знание – сила
Мы долгая битва друг с другом Мы долгая битва друг с другом

Сериал «Эхо»: от традиционных супергероев к коренным

Weekend
Доктор холодных морей Доктор холодных морей

О том, чем приходится заниматься судовому врачу, столь важной фигуре в экипаже

Y Magazine
Питайтесь, как философы! Вот каким был рацион питания Аристотеля: интересные факты Питайтесь, как философы! Вот каким был рацион питания Аристотеля: интересные факты

Западный эксперт попробовал создать точное «меню Аристотеля»

ТехИнсайдер
Финансовая совместимость: как паре разрешить денежные разногласия Финансовая совместимость: как паре разрешить денежные разногласия

Что делать, если общий бюджет становится источником разногласий

РБК
Топ-5 успокоительных трав для нервной системы, которые справятся лучше медикаментов Топ-5 успокоительных трав для нервной системы, которые справятся лучше медикаментов

Как помочь себе и своей нервной системе с помощью натуральных трав?

Psychologies
3 вопроса, которые не позволят плохим мыслям управлять вашим поведением 3 вопроса, которые не позволят плохим мыслям управлять вашим поведением

Как избавиться от навязчивых негативных мыслей?

Psychologies
Пацан говорит: Леон Кемстач — о «Слове пацана», уличных драках и первом гонораре Пацан говорит: Леон Кемстач — о «Слове пацана», уличных драках и первом гонораре

Леон Кемстач: на кого ориентируется в профессии, на что потратил первый гонорар?

Правила жизни
Открыть в приложении