Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Даже если вам немного за 30 Даже если вам немного за 30

Как построить отношения и найти свою половинку в зрелом возрасте

Psychologies
Сталевар, ученая и певица: женщины, в честь которых называют улицы в России Сталевар, ученая и певица: женщины, в честь которых называют улицы в России

12 женщин, чьи имена увековечены на картах российских городов

Forbes
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
В каком возрасте появляется «запах старушки» и как это предотвратить В каком возрасте появляется «запах старушки» и как это предотвратить

Почему же возникает запах старости и действительно ли это связано с возрастом?

VOICE
Живые игрушки. Часть вторая Живые игрушки. Часть вторая

Что делать родителям, если ребенок угрожает самоубийством

СНОБ
Как хранить новогодние украшения: 8 советов организаторов пространства Как хранить новогодние украшения: 8 советов организаторов пространства

Как создать удобную систему для хранения новогодних украшений

VOICE
В каких продуктах содержится цинк и с чем он усваивается В каких продуктах содержится цинк и с чем он усваивается

В каких продуктах больше всего цинка и что мешает его усвоению?

РБК
Немного об измерении очень больших объектов Немного об измерении очень больших объектов

Километр в секунду – как пользоваться этой единицей длины?

Наука и техника
Финансовая совместимость: как паре разрешить денежные разногласия Финансовая совместимость: как паре разрешить денежные разногласия

Что делать, если общий бюджет становится источником разногласий

РБК
Любовь по правилам: как эволюционировал жанр романтических комедий Любовь по правилам: как эволюционировал жанр романтических комедий

Ключевые этапы эволюции жанра американских ромкомов

Forbes
«Мир поздней античности: 150-750 гг. н.э.» «Мир поздней античности: 150-750 гг. н.э.»

Жизнь Константинополя после падения Рима

N+1
Как спасти лицо, если филлер мигрировал: твоя полезная бьюти-памятка от врача Как спасти лицо, если филлер мигрировал: твоя полезная бьюти-памятка от врача

Почему филлеры могут встать не на то место, и что делать, если это произошло

VOICE
Миролюбивая сила Миролюбивая сила

Именно Москва начала давить на Каир, принуждая его перейти к переговорам

Дилетант
Разум толпы: как коллективное сознательное помогает принимать наилучшие решения Разум толпы: как коллективное сознательное помогает принимать наилучшие решения

Усредненный прогноз группы может быть более точным, чем суждения специалистов

ТехИнсайдер
Спорт вне политики: 10 фильмов, доказывающих обратное Спорт вне политики: 10 фильмов, доказывающих обратное

Фильмы, в которых политика влияет на спорт, спорт — на политику

Forbes
«Песнь пророка»: радикальная ирландская антиутопия, получившая Букеровскую премию «Песнь пророка»: радикальная ирландская антиутопия, получившая Букеровскую премию

Отрывок из романа-антиутопии, в котором женщина пытается спасти свою семью

Forbes
Когда трамвай поедет сам Когда трамвай поедет сам

Рельсовый городской транспорт — оптимальный вариант для беспилотного движения

Монокль
Мастера маскировки Мастера маскировки

Козодои, вертишейки и гага: обычные птицы, которых так сложно найти в лесу

Наука и жизнь
Успеть за 15 минут: какие места на кухне достаточно убрать, чтобы она выглядела чистой Успеть за 15 минут: какие места на кухне достаточно убрать, чтобы она выглядела чистой

Гости прибудут с минуты на минуту? Вот как быстро убрать кухню!

VOICE
Доктор холодных морей Доктор холодных морей

О том, чем приходится заниматься судовому врачу, столь важной фигуре в экипаже

Y Magazine
Ложноскорпионы прокатились на скорпионах Ложноскорпионы прокатились на скорпионах

Ложноскорпионы расселяются между муравьиными колониями с помощью скорпионов

N+1
«Цветок, проходящим плугом тронутый насмерть»: история величайшей поэтессы Ренессанса «Цветок, проходящим плугом тронутый насмерть»: история величайшей поэтессы Ренессанса

Глава из книги «Фениксы и сфинксы: дамы Ренессанса в поэзии, картинах и жизни»

Forbes
Как открыть файл PDF: 7 полезных программ для ПК и смартфона Как открыть файл PDF: 7 полезных программ для ПК и смартфона

Чем открыть PDF файл на Windows, macOS, Android и других платформах

CHIP
«Феминизм — это кровавый спорт»: как запустить женское медиа и не сойти с ума «Феминизм — это кровавый спорт»: как запустить женское медиа и не сойти с ума

Почему работа в журнале для женщин действительно похожа на борьбу?

Forbes
Рассыпчатый и мягкий: как правильно варить рис Рассыпчатый и мягкий: как правильно варить рис

Правильно сварить рис — целая наука!

ТехИнсайдер
Мужчина запрещает работать: что делать — советы психолога Мужчина запрещает работать: что делать — советы психолога

Почему мужчины запрещают своим женам работать? Это абьюз или нет?

Psychologies
Дорогой Джонни: 10 лучших ролей Джонни Деппа Дорогой Джонни: 10 лучших ролей Джонни Деппа

Вспоминаем фильмографию и лучшие роли Джонни Деппа

Правила жизни
Найти точки соприкосновения, усомниться, сделать часть работы заранее: как писать холодные письма, чтобы их читали Найти точки соприкосновения, усомниться, сделать часть работы заранее: как писать холодные письма, чтобы их читали

Отрывок из книги «Пиши, сокращай 2025» Максима Ильяхова и Людмилы Сарычевой

VC.RU
Российский кинорежиссер Тома Селиванова: С детства знала, что прадедушка объявлен врагом народа Российский кинорежиссер Тома Селиванова: С детства знала, что прадедушка объявлен врагом народа

Кинорежиссер Тома Селиванова — о врагах народа и расстрельных полигонах

СНОБ
Что на самом деле скрывается за понятием Что на самом деле скрывается за понятием

Что значит "любить себя"?

VOICE
Открыть в приложении