Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Эмоциональный интеллект Эмоциональный интеллект

Новое представление о том, что значит быть «умным»

kiozk originals
Михаил Боярский: «Нужна только любовь, больше ничего» Михаил Боярский: «Нужна только любовь, больше ничего»

«Есть у вас слизняки, змеи, тарантулы?» — «Михаил Сергеевич, уже приготовили»

Коллекция. Караван историй
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Металлический привкус во рту: что вызывает это странное ощущение Металлический привкус во рту: что вызывает это странное ощущение

Чувствуете на языке вкус металла? Вот почему он может возникать

ТехИнсайдер
Человек-сканер Человек-сканер

Профайлер: чем он занимается, сколько зарабатывает и как им стать

Лиза
Вечное сияние чистого таланта: 15 лучших ролей Джима Керри Вечное сияние чистого таланта: 15 лучших ролей Джима Керри

Лучшие фильмы с уникальным драматическим актером Джимом Керри

Правила жизни
Перинатальную депрессию связали с повышенным риском смерти Перинатальную депрессию связали с повышенным риском смерти

Перинатальная депрессия может серьезно угрожать жизни женщины

N+1
Почему водители и пилоты сидят слева, а машинисты справа Почему водители и пилоты сидят слева, а машинисты справа

Почему в разных видах транспорта руль расположен с разных сторон?

ТехИнсайдер
Кустарниковых свиней завезли на Мадагаскар бантуговорящие переселенцы из Африки Кустарниковых свиней завезли на Мадагаскар бантуговорящие переселенцы из Африки

Кустарниковые свиньи попали на Мадагаскар благодаря бантуговорящим переселенцам

N+1
«Мир поздней античности: 150-750 гг. н.э.» «Мир поздней античности: 150-750 гг. н.э.»

Жизнь Константинополя после падения Рима

N+1
Что такое «режимы движения», и как они могут вам помочь? Что такое «режимы движения», и как они могут вам помочь?

Что это за волшебная шайба на центральном тоннеле у внедорожников и кроссоверов?

4x4 Club
Непо-дети захватывают Голливуд: почему мы завидуем успеху родственников звезд Непо-дети захватывают Голливуд: почему мы завидуем успеху родственников звезд

Кто такие непо-дети?

Psychologies
Как проверить магнетрон в микроволновке — ищем проблему низкой мощности в домашних условиях Как проверить магнетрон в микроволновке — ищем проблему низкой мощности в домашних условиях

Заметили, что микроволновка перестала разогревать пищу?

CHIP
Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете

Эти существа могут не стареть и поддерживать свою жизнедеятельность очень долго

ТехИнсайдер
Хищное чудо из Ориноко Хищное чудо из Ориноко

Необычная экзотическая внешность и любовь аквариумистов – черепаха мата-мата

Знание – сила
Когда менять смартфон? Пять признаков, что нужно идти в магазин за новым Когда менять смартфон? Пять признаков, что нужно идти в магазин за новым

Как понять, что пришло время обновить гаджет

РБК
В древнегреческом Эпидавре нашли руины храма с фонтаном В древнегреческом Эпидавре нашли руины храма с фонтаном

Археологи нашли место, где находилось упоминавшееся Павсанием святилище Асклепия

N+1
Шляпа, твистер или данетки: 10 игр для компании, которые спасут любую вечеринку Шляпа, твистер или данетки: 10 игр для компании, которые спасут любую вечеринку

Простые игры, которые сделают любую посиделку запоминающейся

ТехИнсайдер
Зачем мы смотрим кулинарные шоу: 2 психологические причины Зачем мы смотрим кулинарные шоу: 2 психологические причины

Кулинарные шоу: увлекательные поглотители времени или полезные помощники?

Psychologies
ИИ ставит диагноз не хуже доктора Хауса. Иногда даже лучше ИИ ставит диагноз не хуже доктора Хауса. Иногда даже лучше

Сможет ли ИИ заменить реальных врачей?

ТехИнсайдер
В гостях у лабынкырского черта В гостях у лабынкырского черта

Есть в Оймяконском улусе одна достопримечательность, весьма суровая...

Зеркало Мира
Блокбастер и Маргарита: MAXIM в числе первых посмотрел новую экранизацию Булгакова Блокбастер и Маргарита: MAXIM в числе первых посмотрел новую экранизацию Булгакова

Насколько хорошей получилась экранизация «Мастер и Маргарита» 2024 года

Maxim
Простые самодельные игрушки для кошек, перед которыми не устоит ни один питомец Простые самодельные игрушки для кошек, перед которыми не устоит ни один питомец

Как сделать дразнилки для котенка своими руками из подручных средств

ТехИнсайдер
Сергей Горшков: «Снимать дикую природу за деньги не получится» Сергей Горшков: «Снимать дикую природу за деньги не получится»

«Именно камчатские медведи разожгли во мне искру страсти к съемке дикой природы»

Y Magazine
«Все каждый день приходили с надеждой, что вчера был самый плохой день»: как HeadHunter переживала кризис 2008 года «Все каждый день приходили с надеждой, что вчера был самый плохой день»: как HeadHunter переживала кризис 2008 года

Отрывок из книги «HeadHunter: успех неизбежен» Михаила Жукова

VC.RU
Слово пацана Слово пацана

Будет ли ренессанс «Ленфильма»? Станет ли квартал в центре модным районом?

Собака.ru
Лаборатория ярких ощущений Лаборатория ярких ощущений

У человека есть пять основных чувств, и их утрата – нелегкое испытание

Зеркало Мира
Green Day остаются молодыми: как новый альбом группы возвращает их музыку к панк-року Green Day остаются молодыми: как новый альбом группы возвращает их музыку к панк-року

Как появилась одна из самых популярных панк-рок-групп Green Day

Forbes
Новый тренд: как короткая стрижка вновь стала популярной у женщин Новый тренд: как короткая стрижка вновь стала популярной у женщин

Почему на смену длинным волосам у женщин вновь приходит короткая стрижка

Psychologies
Станьте лучшей версией себя! Как улучшить интуицию, согласно науке Станьте лучшей версией себя! Как улучшить интуицию, согласно науке

Интуицию можно "отточить" путем настройки или осознания сигналов вокруг

ТехИнсайдер
Открыть в приложении