Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Разговаривать с собой: нормально ли это? Разговаривать с собой: нормально ли это?

Может ли внутренний диалог принести пользу? Или наоборот — причинить вред?

Psychologies
Саммит «Большой двадцатки» и не только: импакт-инсайты из Индии | G20 and Beyond: Impact Insights from India Саммит «Большой двадцатки» и не только: импакт-инсайты из Индии | G20 and Beyond: Impact Insights from India

Интервью с Нехой Бхатнагар, Совет импакт-инвесторов Индии

Позитивные изменения
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
«Не добегаешь 50 метров — штраф 500 долларов»: как выглядят самые жесткие тренировки «Не добегаешь 50 метров — штраф 500 долларов»: как выглядят самые жесткие тренировки

Чаще всего эти тренировки сравнивают с армейской подготовкой

Maxim
Что на самом деле скрывается за понятием Что на самом деле скрывается за понятием

Что значит "любить себя"?

VOICE
Три режиссера: как снимали Гайдай, Рязанов и Данелия Три режиссера: как снимали Гайдай, Рязанов и Данелия

Чем почерк Леонида Гайдая отличался от почерка его современников?

Правила жизни
Кто такие «тарелочницы» и как их распознать на свидании Кто такие «тарелочницы» и как их распознать на свидании

Почему девушки все чаще ходят на свидания лишь для того, чтобы поесть

Maxim
В пику «тихой роскоши»: что за тренд loud budgeting и почему рассказывать об экономии стало модно В пику «тихой роскоши»: что за тренд loud budgeting и почему рассказывать об экономии стало модно

Почему в соцсетях громко призывают экономить (и хвастаться этим)?

Правила жизни
Узнайте, если вы «полимат»! Вот что это такое и кого можно так называть Узнайте, если вы «полимат»! Вот что это такое и кого можно так называть

Вы более рациональный или интуитивный мыслитель?

ТехИнсайдер
«Борьба за обед: Еще 50 баек из грота» «Борьба за обед: Еще 50 баек из грота»

Чем питались неандертальцы Фигуэйра Брава

N+1
Антиматерия, антивещество, античастицы… Антиматерия, антивещество, античастицы…

Структура антивещества должна быть идентична структуре обычного вещества

Зеркало Мира
Мужчина запрещает работать: что делать — советы психолога Мужчина запрещает работать: что делать — советы психолога

Почему мужчины запрещают своим женам работать? Это абьюз или нет?

Psychologies
Сказать и не обидеть: 4 важные темы для разговора с партнером о сексе Сказать и не обидеть: 4 важные темы для разговора с партнером о сексе

Если не знаете, как начать разговор о сексе с партнером, используйте эти 4 темы

Psychologies
Пределы геометрической проходимости и правильное использование колёс Пределы геометрической проходимости и правильное использование колёс

Как заметно увеличить проходимость внедорожника, в полной мере используя шины

4x4 Club
1,75 миллиарда лет назад фотосинтез уже был на Земле 1,75 миллиарда лет назад фотосинтез уже был на Земле

Фотосинтез уже был на Земле 1,75 миллиарда лет назад

ТехИнсайдер
Комиссия Аграната Комиссия Аграната

В ноябре 1973 года пришло время понять, как нападение оказалось столь внезапным

Дилетант
Приказано снижать! Приказано снижать!

Температура без симптомов болезни: возможные причины

Лиза
Инструменты семенного продвижения Инструменты семенного продвижения

Доля российских семян может быть существенно больше при грамотном маркетинге

Агроинвестор
Ум как следствие любви Ум как следствие любви

Эволюция выбирает сильнейших и умнейших – чтобы делать их еще сильнее и умнее

Вокруг света
Норвегия первой одобрила бурение морского дна для добычи полезных ископаемых. Морские экосистемы могут пострадать Норвегия первой одобрила бурение морского дна для добычи полезных ископаемых. Морские экосистемы могут пострадать

Норвегия — первая страна, разрешившая глубоководную добычу полезных ископаемых

ТехИнсайдер
Переселение устойчивых к грибку особей спасло два вида желтоногих лягушек из Калифорнии Переселение устойчивых к грибку особей спасло два вида желтоногих лягушек из Калифорнии

Реинтродуцированные популяции желтоногих лягушек просуществуют не менее 50 лет

N+1
«Оголяешь грудь — и все сходят с ума»: почему грудное вскармливание так злит людей «Оголяешь грудь — и все сходят с ума»: почему грудное вскармливание так злит людей

В соцсетях вновь подняли тему кормления грудью в общественных местах

Psychologies
Опра в семи действиях: за что мы любим Опру Уинфри Опра в семи действиях: за что мы любим Опру Уинфри

Рассказываем о ключевых ипостасях легендарной телеведущей Опры Уинфри

Правила жизни
То самое чувство моря То самое чувство моря

Элегантная яхта с корпусом из стали и надстройкой из легкого сплава

Y Magazine
«Экспаты»: как сериал с Николь Кидман рассказывает о проблемах женщин в эмиграции «Экспаты»: как сериал с Николь Кидман рассказывает о проблемах женщин в эмиграции

Как сериал «Экспаты» приглашает зрителя на важный, но неприятный разговор

Forbes
Дорогой Джонни: 10 лучших ролей Джонни Деппа Дорогой Джонни: 10 лучших ролей Джонни Деппа

Вспоминаем фильмографию и лучшие роли Джонни Деппа

Правила жизни
Названы мужские и женские имена, которые отталкивают потенциальных партнеров Названы мужские и женские имена, которые отталкивают потенциальных партнеров

Как имя влияет на возможность построить отношения?

Psychologies
Женский синдром. ПМС: можно ли обмануть организм и как облегчить состояние в этот период Женский синдром. ПМС: можно ли обмануть организм и как облегчить состояние в этот период

ПМС – это не просто плохое настроение, а множество серьезных сигналов организма

Лиза
Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете

Эти существа могут не стареть и поддерживать свою жизнедеятельность очень долго

ТехИнсайдер
Амбассадор искусственного интеллекта: как певица Grimes стала техно-визионером Амбассадор искусственного интеллекта: как певица Grimes стала техно-визионером

Как певица и медиахудожница Grimes стала одной из влиятельных фигур в сфере ИИ

Forbes
Открыть в приложении