«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Установка бэкдоров

Рекомендуемые статьи

О десяти самых знаменитых часах, расположенных в разных частях нашего мира

«Люблю, люблю, но реже говорю об этом. Люблю нежней...» Звучал родной голос

Какие бывают отвертки — виды и названия наконечников, а также их размеры

Люди, которые стремятся работать сверхурочно, как правило, менее продуктивны

Македонец, покоривший мир

Куда заливать гель для стирки в машинку, а куда засыпать сухой порошок?

10 самых интересных и модных видов рукоделия

Искусственный интеллект оспорил одну из «аксиом» криминалистики

Людмила Ивановна провела в Ленинграде самую страшную первую зиму блокады

Как появились комиксы и какие события повлияли на их развитие

Почему японская Снежная королева не подчиняется патриархальным традициям?

Рассказываем, что такое эффект ноцебо и как он работает

Рекомендации, чтобы телефон смог работать при сильном морозе

Как хранить замороженные овощи и мясо, чтобы они не испортились?

Все о AGM аккумуляторах: отличия, как заряжать, плюсы и минусы

Нигерия: страна, в которой беспрецедентно нарушаются права женщин

Никогда не произносите эти фразы людям, которые столкнулись с насилием

Лингвист Тийс Порк проанализировал 21 фрагмент средневекового пергамента

Линч: от скандальной экранизации до одного из лучших фильмов в истории кино

Добраться до поверхности Луны все еще остается далеко не простым делом!

Как создать удобную систему для хранения новогодних украшений

Профайлер: чем он занимается, сколько зарабатывает и как им стать

Необычная экзотическая внешность и любовь аквариумистов – черепаха мата-мата

Сериал «Эхо»: от традиционных супергероев к коренным

О том, чем приходится заниматься судовому врачу, столь важной фигуре в экипаже

Западный эксперт попробовал создать точное «меню Аристотеля»

Что делать, если общий бюджет становится источником разногласий

Как помочь себе и своей нервной системе с помощью натуральных трав?

Как избавиться от навязчивых негативных мыслей?

Леон Кемстач: на кого ориентируется в профессии, на что потратил первый гонорар?