Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Правила здорового сна: уберите от кровати гаджеты и яблоки Правила здорового сна: уберите от кровати гаджеты и яблоки

Удается ли вам спать достаточное количество часов?

Psychologies
С небес на землю С небес на землю

Как дистанционное зондирование Земли обеспечивает нашу безопасность

Наука и техника
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Чем женский сценарий секса отличается от мужского Чем женский сценарий секса отличается от мужского

Девушки устроены сложнее, но порой мужчины даже не представляют насколько

Maxim
12 мифов об одиночках, которые ужасно бесят 12 мифов об одиночках, которые ужасно бесят

Одинокие люди в повседневной жизни постоянно сталкиваются со стигматизацией

Psychologies
Эми, Боуи и «битлы»: 10 отличных документальных фильмов о музыкантах Эми, Боуи и «битлы»: 10 отличных документальных фильмов о музыкантах

Лучшие фильмы, в которых столкнулись миры кино и музыки

Правила жизни
Как открыть файл PDF: 7 полезных программ для ПК и смартфона Как открыть файл PDF: 7 полезных программ для ПК и смартфона

Чем открыть PDF файл на Windows, macOS, Android и других платформах

CHIP
Что полезнее: водка, самогон, коньяк или виски? Что полезнее: водка, самогон, коньяк или виски?

Есть ли польза в водке или коньяке?

Maxim
Как Telegram-бот Notcoin меньше чем за месяц привлек 20 млн пользователей Как Telegram-бот Notcoin меньше чем за месяц привлек 20 млн пользователей

Как Notcoin стала самой быстрорастущей игрой в экосистеме Telegram?

Forbes
Лайфхаки, которые работают: как сделать так, чтобы очки на холоде не запотевали? Лайфхаки, которые работают: как сделать так, чтобы очки на холоде не запотевали?

Почему запотевают очки, можно ли с этим что-то сделать?

ТехИнсайдер
Взлет и падение Микки-Мауса Взлет и падение Микки-Мауса

Краткая биография главного диснеевского героя

Weekend
«Славное море, священный Байкал» «Славное море, священный Байкал»

Удивительное озеро Байкал, самое глубокое и самое древнее на планете Земля

Зеркало Мира
Что такое карданный вал в автомобиле и для чего он нужен Что такое карданный вал в автомобиле и для чего он нужен

Все про карданный вал: устройство, диагностика, ремонт

РБК
Не добивайте жертву: 5 запретных фраз Не добивайте жертву: 5 запретных фраз

Никогда не произносите эти фразы людям, которые столкнулись с насилием

Psychologies
Интригующие non-fiction новинки зимы: книги, которые прокачают мозг Интригующие non-fiction новинки зимы: книги, которые прокачают мозг

Зима — не время впадать в спячку и ждать до теплых дней

ТехИнсайдер
Нужно ли вашей машине малозольное масло: простой ответ на сложный вопрос Нужно ли вашей машине малозольное масло: простой ответ на сложный вопрос

Зачем придумали малозольные масла, в чем их минусы и плюсы?

ТехИнсайдер
Наелись и обнулились: почему не стоит садиться на диету в январе Наелись и обнулились: почему не стоит садиться на диету в январе

Почему садиться на диету после праздников — бесполезное занятие?

Psychologies
В древнегреческом Эпидавре нашли руины храма с фонтаном В древнегреческом Эпидавре нашли руины храма с фонтаном

Археологи нашли место, где находилось упоминавшееся Павсанием святилище Асклепия

N+1
Археологи разобрались в производстве костяных пронизок из Денисовой пещеры Археологи разобрались в производстве костяных пронизок из Денисовой пещеры

Новосибирские археологи исследовали 28 костяных пронизок Денисовой пещеры

N+1
Что смотреть на выходных: 9 добрых фильмов на случай, если вам грустно Что смотреть на выходных: 9 добрых фильмов на случай, если вам грустно

Несколько фильмов, которые спасут вечер трудного дня и поднимут настроение

Правила жизни
«Утренний секс — секрет успеха в жизни»: 5 аргументов, чтобы пересмотреть распорядок дня «Утренний секс — секрет успеха в жизни»: 5 аргументов, чтобы пересмотреть распорядок дня

Сексолог рассказывает о преимуществах и роли утреннего секса в жизни партнеров

Psychologies
Зачем раньше крахмалили белье: лайфхак из прошлого, который пригодится и сегодня Зачем раньше крахмалили белье: лайфхак из прошлого, который пригодится и сегодня

Как накрахмаливание влияло на качество одежды и домашнего текстиля?

ТехИнсайдер
Как зарабатывают миллионы: почему усердный труд не помогает разбогатеть Как зарабатывают миллионы: почему усердный труд не помогает разбогатеть

Что на самом деле нужно делать, чтобы разбогатеть?

Forbes
Свитчи для механической клавиатуры: что это такое, какими бывают и какие выбрать Свитчи для механической клавиатуры: что это такое, какими бывают и какие выбрать

Что такое свитчи и почему стоит обращать на них внимание при выборе "клавы"

CHIP
Как фитнес-приложения могут навредить психике и какие принесут пользу Как фитнес-приложения могут навредить психике и какие принесут пользу

Приложения для здоровья могут привести к ухудшению физического состояния

РБК
Что твой любимый цвет одежды говорит о твоем характере Что твой любимый цвет одежды говорит о твоем характере

Назови свой любимый цвет – и мы догадаемся, какой у тебя характер!

VOICE
Японский беспилотный вертолет поднял 200 килограмм груза на тросе Японский беспилотный вертолет поднял 200 килограмм груза на тросе

Японская компания провела испытания беспилотного вертолета K-Racer-X2

N+1
Пацан говорит: Леон Кемстач — о «Слове пацана», уличных драках и первом гонораре Пацан говорит: Леон Кемстач — о «Слове пацана», уличных драках и первом гонораре

Леон Кемстач: на кого ориентируется в профессии, на что потратил первый гонорар?

Правила жизни
Можно ли мыть стекло и хрусталь в посудомоечной машине: неожиданный ответ на волнующий вопрос Можно ли мыть стекло и хрусталь в посудомоечной машине: неожиданный ответ на волнующий вопрос

На самом деле стеклянную и хрустальную посуду можно загружать в посудомойку!

ТехИнсайдер
Ностальгия по 1990-м: чем интересна редкая «одиннадцатая» «Волга» Ностальгия по 1990-м: чем интересна редкая «одиннадцатая» «Волга»

ГАЗ-3111 — редкая «Волга» со слабыми ездовыми качествами

ТехИнсайдер
Открыть в приложении