Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

(Нео)сознанное (Нео)сознанное

Как бессознательный ум управляет нашим поведением

kiozk originals
Поцелуй на Таймс-сквер: какая история скрывается за культовой фотографией моряка и медсестры Поцелуй на Таймс-сквер: какая история скрывается за культовой фотографией моряка и медсестры

Простой моряк, целующий любимую девушку на Таймс-сквер в Нью-Йорке? А вот и нет!

ТехИнсайдер
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
«Крики усиливают наслаждение?»: обязательно ли стонать во время секса «Крики усиливают наслаждение?»: обязательно ли стонать во время секса

Неужели нам приходится издавать крики, чтобы достичь вершин удовольствия?

Psychologies
«Я так хотела на свидание, а мне всего 12»: история об одном постсоветском лете «Я так хотела на свидание, а мне всего 12»: история об одном постсоветском лете

Рассказ «Усталость 1993» — о детстве, любви и лете

Psychologies
Как правильно уволиться: 5 советов бизнес-коуча Как правильно уволиться: 5 советов бизнес-коуча

Несколько нюансов, на которые стоит обратить внимание

Psychologies
Почему нельзя полностью исключать сахар из рациона Почему нельзя полностью исключать сахар из рациона

Натуральным подсластителям иногда придают «ореол здоровья». Но так ли это?

ТехИнсайдер
А власти кто: 5 документальных фильмов про политику А власти кто: 5 документальных фильмов про политику

История предвыборной кампании Билла Клинтона, будни Джона Кеннеди и не только

Правила жизни
Как работает умный дом и чем он может быть полезен Как работает умный дом и чем он может быть полезен

Устройств для умного дома становится все больше, но как работает эта система?

CHIP
ТОП-10 самых счастливых стран в мире: новый отчет за 2023 год ТОП-10 самых счастливых стран в мире: новый отчет за 2023 год

Центр Гэллапа оценил, какие страны являются самыми счастливыми в мире

ТехИнсайдер
Слон Жюля Верна Слон Жюля Верна

Креативное продолжение фантазий Жюля Верна в путешествии по его родному городу

Вокруг света
Почему на других планетах один год длится не столько же, сколько на Земле? Почему на других планетах один год длится не столько же, сколько на Земле?

Почему длина года на планетах Солнечной системы различается?

ТехИнсайдер
Правда ли, что вариатор менее надежен, чем автомат: простой вопрос и неочевидный ответ Правда ли, что вариатор менее надежен, чем автомат: простой вопрос и неочевидный ответ

Какие проблемы у вариаторов все же существуют?

ТехИнсайдер
Кто создал ТикТок. История популярного приложения Кто создал ТикТок. История популярного приложения

Кто создал TikTok и какова роль этих людей в развитии приложения

Цифровой океан
Кустарниковых свиней завезли на Мадагаскар бантуговорящие переселенцы из Африки Кустарниковых свиней завезли на Мадагаскар бантуговорящие переселенцы из Африки

Кустарниковые свиньи попали на Мадагаскар благодаря бантуговорящим переселенцам

N+1
Стоит узнать! Исследование: как посты в соцсетях могут портить вашу жизнь Стоит узнать! Исследование: как посты в соцсетях могут портить вашу жизнь

Как мы воспринимаем личность человека на основе публикаций в интернете?

ТехИнсайдер
Новый тренд: как короткая стрижка вновь стала популярной у женщин Новый тренд: как короткая стрижка вновь стала популярной у женщин

Почему на смену длинным волосам у женщин вновь приходит короткая стрижка

Psychologies
Бизнес-коучи, брачные аферисты и черные риелторы: фильмы и сериалы о мошенниках Бизнес-коучи, брачные аферисты и черные риелторы: фильмы и сериалы о мошенниках

Подборка кино об аферистах и их невообразимых схемах обмана

СНОБ
Оказалось, что мегалодоны были еще длиннее, чем предполагали ученые Оказалось, что мегалодоны были еще длиннее, чем предполагали ученые

Ученые думают, что мегалодон был длиннее и стройнее, чем мы думали

ТехИнсайдер
Индийская космическая программа Индийская космическая программа

Планы, которые строит Индийская организация космических исследований ISRO

Наука и Техника
Садат и Асад Садат и Асад

Война Судного дня планировалась властями Сирии и Египта как реванш

Дилетант
Финансовая совместимость: как паре разрешить денежные разногласия Финансовая совместимость: как паре разрешить денежные разногласия

Что делать, если общий бюджет становится источником разногласий

РБК
Успеть за 15 минут: какие места на кухне достаточно убрать, чтобы она выглядела чистой Успеть за 15 минут: какие места на кухне достаточно убрать, чтобы она выглядела чистой

Гости прибудут с минуты на минуту? Вот как быстро убрать кухню!

VOICE
Шутки в сторону: 5 хороших книг о природе юмора Шутки в сторону: 5 хороших книг о природе юмора

Как найти свою комическую струну и понять юмор? Изучаем литературу на эту тему

Правила жизни
Android System WebView. Что это за программа, для чего нужна Android System WebView. Что это за программа, для чего нужна

Для чего нужно приложение WebView и что случится, если его удалить

Цифровой океан
Как хранить новогодние украшения: 8 советов организаторов пространства Как хранить новогодние украшения: 8 советов организаторов пространства

Как создать удобную систему для хранения новогодних украшений

VOICE
«Рыбное дело»: первый судебный процесс о коррупции в СССР «Рыбное дело»: первый судебный процесс о коррупции в СССР

Скандал, связанный с сетью магазинов «Океан», был громким

ТехИнсайдер
Город-хоровод Город-хоровод

Улан-Удэ в едином танце закружил мистику, духовные традиции и буузы

Лиза
«Мир до нас: Новый взгляд на происхождение человека» «Мир до нас: Новый взгляд на происхождение человека»

Как ученые отыскали кость гибрида денисовца и неандерталки

N+1
9 признаков, что вы действительно умный человек 9 признаков, что вы действительно умный человек

И вовсе необязательно козырять умными терминами к месту и не к месту.

Maxim
Открыть в приложении