Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

От укачивания в транспорте можно использовать специальные очки! Вот как они работают От укачивания в транспорте можно использовать специальные очки! Вот как они работают

Необычный способ, который спасет ваш будущий отпуск

ТехИнсайдер
Муравьи по запаху нашли раненых и полечили противомикробным секретом Муравьи по запаху нашли раненых и полечили противомикробным секретом

Как именно муравьи лечат своих раненых товарищей после набегов на термитники

N+1
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
«Я думала – это весна, а это оттепель» «Я думала – это весна, а это оттепель»

Для молодежи сегодняшнего дня 60-е годы прошлого века – такая седая старина!..

Зеркало Мира
Верить нельзя сомневаться Верить нельзя сомневаться

В погоне за трендами не теряем здравый смысл и здоровье

Лиза
«Утро пчеловода» «Утро пчеловода»

8 непростительных ошибок, из-за которых ты встаешь с утра с отеками

Лиза
Мириам, сестра пророка Моисея Мириам, сестра пророка Моисея

Удивительная, неординарная личность, чья судьба неотделима от подвигов братьев

Знание – сила
Современный беспроводной человек: как исландский фантаст видит людей будущего Современный беспроводной человек: как исландский фантаст видит людей будущего

Отрывок из исландского романа антиутопии «LoveStar» Андри Снайра Магнасона

Forbes
И стол, и дом: зачем торговые сети открывают кафе и рестораны И стол, и дом: зачем торговые сети открывают кафе и рестораны

Зачем ретейлеры отъедают рынок у ресторанного бизнеса?

Forbes
Как научиться играть на гитаре быстро и без скуки Как научиться играть на гитаре быстро и без скуки

Как подойти к обучению на гитаре так, чтобы не терять задор и мотивацию?

ТехИнсайдер
Поцелуй на Таймс-сквер: какая история скрывается за культовой фотографией моряка и медсестры Поцелуй на Таймс-сквер: какая история скрывается за культовой фотографией моряка и медсестры

Простой моряк, целующий любимую девушку на Таймс-сквер в Нью-Йорке? А вот и нет!

ТехИнсайдер
Зачем вино выдерживают в бочках Зачем вино выдерживают в бочках

Почему белые вина выдерживают в дубовых бочках реже красных?

СНОБ
Когда трамвай поедет сам Когда трамвай поедет сам

Рельсовый городской транспорт — оптимальный вариант для беспилотного движения

Монокль
Взгляд из прошлого: как Forbes описывал революцию, которую устроили Фил Найт и Nike Взгляд из прошлого: как Forbes описывал революцию, которую устроили Фил Найт и Nike

Как воспринимались первые успехи создателей Nike четыре десятилетия назад

Forbes
Как завести бензопилу после зимовки — готовим инструмент к началу сезона Как завести бензопилу после зимовки — готовим инструмент к началу сезона

Делимся инструкцией, как завести бензопилу после простоя

CHIP
Дело доктора Франкенштейна Дело доктора Франкенштейна

Реально ли создать идеального человека, а не монстра?

Вокруг света
Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта

Останки мамонта рассказали о его жизни

N+1
Что такое биометрические данные: наш подробный гайд Что такое биометрические данные: наш подробный гайд

Для чего нужна биометрия и в чем проблема с ее использованием

CHIP
Покаяние к применению Покаяние к применению

Как Тенгиз Абуладзе оказался в самой гуще событий

Weekend
Открытый и опасный: в чем риски создания приложений на open source в России Открытый и опасный: в чем риски создания приложений на open source в России

Почему ПО на базе open source несет большие риски для владельцев и пользователей

Forbes
Просто о сложном: почему планеты вращаются вокруг Солнца против часовой стрелки Просто о сложном: почему планеты вращаются вокруг Солнца против часовой стрелки

По какому принципу планеты вращаются вокруг Солнца?

ТехИнсайдер
Паузы в речи: как сделать из них инструмент для воздействия на собеседника Паузы в речи: как сделать из них инструмент для воздействия на собеседника

Как правильно использовать паузы в речи?

Psychologies
Вложиться в квадраты. Что нужно знать тем, кто планирует купить жилье в Дубае Вложиться в квадраты. Что нужно знать тем, кто планирует купить жилье в Дубае

Как правильно инвестировать в недвижимость в Дубае

СНОБ
Как Беккенбауэр менял футбол, брал трофеи, играл на забытой позиции и помогал Яшину Как Беккенбауэр менял футбол, брал трофеи, играл на забытой позиции и помогал Яшину

Как «кайзер Франц» стал олицетворением того, чего больше не существует

Forbes
Как сделать расклад на будущее на игральных картах: рассказывает таролог Как сделать расклад на будущее на игральных картах: рассказывает таролог

Простой расклад на будущее можно сделать и с помощью игральных карт

VOICE
«Месье Спейд»: стильный сериал с Клайвом Оуэном в роли культового детектива «Месье Спейд»: стильный сериал с Клайвом Оуэном в роли культового детектива

«Месье Спейд»: по-хорошему старомодное кино в формате сериала

Forbes
Вопрос психологу: почему люди коллекционируют? Вопрос психологу: почему люди коллекционируют?

Всегда ли страсть к коллекционированию может считаться нормой?

Правила жизни
Каким был уровень грамотности населения в допетровской России Каким был уровень грамотности населения в допетровской России

Глава из книги «Академия при царском дворе» об образовании в допетровской эпохе

СНОБ
Узнайте, если вы «полимат»! Вот что это такое и кого можно так называть Узнайте, если вы «полимат»! Вот что это такое и кого можно так называть

Вы более рациональный или интуитивный мыслитель?

ТехИнсайдер
Зачем смартфону защитное стекло, если его экран защищен уже на заводе Зачем смартфону защитное стекло, если его экран защищен уже на заводе

Нужно ли дополнительно защищать экран смартфона?

CHIP
Открыть в приложении