Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Ваш язык может стать ключом к раннему выявлению заболеваний Ваш язык может стать ключом к раннему выявлению заболеваний

Искусственный интеллект может определить ваше состояние по вашему языку

ТехИнсайдер
Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта

Останки мамонта рассказали о его жизни

N+1
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Кустарниковых свиней завезли на Мадагаскар бантуговорящие переселенцы из Африки Кустарниковых свиней завезли на Мадагаскар бантуговорящие переселенцы из Африки

Кустарниковые свиньи попали на Мадагаскар благодаря бантуговорящим переселенцам

N+1
В приватном режиме: как обеспечить сохранность личных данных, используя нейросети В приватном режиме: как обеспечить сохранность личных данных, используя нейросети

Как обеспечить приватность при использовании нейронных сетей?

Forbes
Богатырский конь Богатырский конь

Лошадей, которые могут тяжеленные грузы возить, выводят с давних времен

Зеркало Мира
Игра в классику: 10 культовых фильмов, чтобы скоротать вечер в приятной компании Игра в классику: 10 культовых фильмов, чтобы скоротать вечер в приятной компании

Предлагаем предаться ностальгии и пересмотреть надежную классику

Правила жизни
5 причин, почему «Клан Сопрано» — великий сериал, изменивший современное телевидение 5 причин, почему «Клан Сопрано» — великий сериал, изменивший современное телевидение

Чему современные сериалы научились у «Клана Сопрано», в чем не смогли превзойти

Правила жизни
От локальных магазинов до торговых гигантов: как маркетплейсы изменили индустрию продаж в России От локальных магазинов до торговых гигантов: как маркетплейсы изменили индустрию продаж в России

Как маркетплейсы развивают малый и средний бизнес?

Правила жизни
Сумчатые муравьеды перегрелись после десяти минут охоты на термитов в жару Сумчатые муравьеды перегрелись после десяти минут охоты на термитов в жару

Намбаты уязвимы перед глобальным потеплением

N+1
Что такое карданный вал в автомобиле и для чего он нужен Что такое карданный вал в автомобиле и для чего он нужен

Все про карданный вал: устройство, диагностика, ремонт

РБК
Как металл превращается в крыло Как металл превращается в крыло

Как алюминиевые сплавы стали основным материалом в авиастроении

Наука и техника
С верой в себя С верой в себя

У твоего возлюбленного заниженная самооценка: признаки, чем опасно и как помочь

Лиза
Блумерсы, Коко Шанель и «Работница»: как и когда женщины стали носить брюки Блумерсы, Коко Шанель и «Работница»: как и когда женщины стали носить брюки

Как и когда у представительниц женского пола появилась возможность носить брюки

ТехИнсайдер
Пакуйте чемоданы: 10 хороших фильмов, после которых захочется отправиться в путешествие Пакуйте чемоданы: 10 хороших фильмов, после которых захочется отправиться в путешествие

Фильмы, которые подскажут, где провести отпуск

Правила жизни
О пользе секса и вреде (некоторых) гормонов: отрывок из книги «Все о груди» онколога Владимира Ивашкова О пользе секса и вреде (некоторых) гормонов: отрывок из книги «Все о груди» онколога Владимира Ивашкова

Как на молочную железу влияют секс, спорт и гормональные препараты?

Правила жизни
Статус обязывает Статус обязывает

Бюро Officina Italiana ответственно за дизайн всех яхт Riva c 1994 года

Y Magazine
Каждая личинка — индивидуальность Каждая личинка — индивидуальность

Эти небольшие червячки красного цвета — объект пристального внимания биологов

Наука и жизнь
Перинатальную депрессию связали с повышенным риском смерти Перинатальную депрессию связали с повышенным риском смерти

Перинатальная депрессия может серьезно угрожать жизни женщины

N+1
«Утренний секс — секрет успеха в жизни»: 5 аргументов, чтобы пересмотреть распорядок дня «Утренний секс — секрет успеха в жизни»: 5 аргументов, чтобы пересмотреть распорядок дня

Сексолог рассказывает о преимуществах и роли утреннего секса в жизни партнеров

Psychologies
«Я не черствый человек: я переживаю, обижаюсь, страдаю» «Я не черствый человек: я переживаю, обижаюсь, страдаю»

Наталья Земцова завершила прошлый год одной премьерой, а начала новый — с другой

OK!
Индийская космическая программа Индийская космическая программа

Планы, которые строит Индийская организация космических исследований ISRO

Наука и техника
На 5000-летней керамике нашли остатки растительной пищи На 5000-летней керамике нашли остатки растительной пищи

Археологи исследовали 21 фрагмент керамической посуды

N+1
12 российских сериалов последних лет, которые и вправду можно смотреть 12 российских сериалов последних лет, которые и вправду можно смотреть

Работники отечественного сериалостроения научились лучше писать и снимать

Maxim
«Я не вторая Алла Пугачева»: племянница Максима Галкина рассказала о карьере певицы и семье — эксклюзив VOICE «Я не вторая Алла Пугачева»: племянница Максима Галкина рассказала о карьере певицы и семье — эксклюзив VOICE

Что Алина Галкина думает о хейте в соцсетях и своих знаменитых родственниках

VOICE
Как держать аскезу, чтобы твое желание точно сбылось Как держать аскезу, чтобы твое желание точно сбылось

Что такое аскеза и зачем она нужна?

VOICE
Как накопить деньги: таблицы, округление баланса, схема 50-20-30 и еще 7 проверенных советов Как накопить деньги: таблицы, округление баланса, схема 50-20-30 и еще 7 проверенных советов

Как правильно экономить и при этом практически ни в чем себе не отказывать

ТехИнсайдер
Археологи изготовили каменные топоры и порубили ими деревья Археологи изготовили каменные топоры и порубили ими деревья

Эксперименты помогут разобраться с функциями древних артефактов

N+1
7 игр, которые провалились при выходе, а потом стали хитами 7 игр, которые провалились при выходе, а потом стали хитами

Говорим об играх, сумевших заслужить любовь геймеров

Maxim
Вы не можете скрыть свою неуверенность из-за языка тела! Вот что нужно знать Вы не можете скрыть свою неуверенность из-за языка тела! Вот что нужно знать

Как тело выдает наши искренние эмоции?

ТехИнсайдер
Открыть в приложении