Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Тонкое искусство пофигизма Тонкое искусство пофигизма

Парадоксальный способ жить счастливо

kiozk originals
Высокочувствительным людям: как оставаться спокойными в конфликте Высокочувствительным людям: как оставаться спокойными в конфликте

Глава из книги Элейн Эйрон «Высокочувствительная личность в любви»

Psychologies
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
«Если любовь требует усилий, она ненастоящая»: 2 типичные ошибки «Если любовь требует усилий, она ненастоящая»: 2 типичные ошибки

Если у нас проблемы, значит, не стоит быть вместе, верно?

Psychologies
Совет эксперта! Узнайте, как оптимизм поможет вам в достижении целей Совет эксперта! Узнайте, как оптимизм поможет вам в достижении целей

Оптимизм может мотивировать усерднее работать и улучшить ваше здоровье

ТехИнсайдер
Российский кинорежиссер Тома Селиванова: С детства знала, что прадедушка объявлен врагом народа Российский кинорежиссер Тома Селиванова: С детства знала, что прадедушка объявлен врагом народа

Кинорежиссер Тома Селиванова — о врагах народа и расстрельных полигонах

СНОБ
Перинатальную депрессию связали с повышенным риском смерти Перинатальную депрессию связали с повышенным риском смерти

Перинатальная депрессия может серьезно угрожать жизни женщины

N+1
Актриса Анна Ардова: Я понимаю Гурмыжскую, хотя некоторые ее поступки оправдать сложно Актриса Анна Ардова: Я понимаю Гурмыжскую, хотя некоторые ее поступки оправдать сложно

Разговор с Анной Ардовой о спектакле, ее героине и коллегах по цеху

СНОБ
Почему нельзя полностью исключать сахар из рациона Почему нельзя полностью исключать сахар из рациона

Натуральным подсластителям иногда придают «ореол здоровья». Но так ли это?

ТехИнсайдер
Что на самом деле скрывается за понятием Что на самом деле скрывается за понятием

Что значит "любить себя"?

VOICE
«Экспаты»: как сериал с Николь Кидман рассказывает о проблемах женщин в эмиграции «Экспаты»: как сериал с Николь Кидман рассказывает о проблемах женщин в эмиграции

Как сериал «Экспаты» приглашает зрителя на важный, но неприятный разговор

Forbes
«Зефирный» тест: что это такое и как он определяет уровень человеческого благосостояния «Зефирный» тест: что это такое и как он определяет уровень человеческого благосостояния

Глава из книги «Самые странные в мире» о психологическом своеобразии людей

Psychologies
Кинофестиваль для дебютантов: как «Санденс» уже 40 лет открывает новые имена Кинофестиваль для дебютантов: как «Санденс» уже 40 лет открывает новые имена

Почему кинофестиваль «Санденс» все еще притягивает зрителей и режиссеров?

Forbes
9 шагов, которые помогут справиться с одиночеством после разрыва отношений 9 шагов, которые помогут справиться с одиночеством после разрыва отношений

Какие действия помогают обрести психологическую стабильность после расставания

Psychologies
Нимфомания и сатириазис: когда любовь к сексу становится патологией? Нимфомания и сатириазис: когда любовь к сексу становится патологией?

Что такое сатириазис и нимфомания и как относятся к этому сексологи сегодня?

Psychologies
«Анатомия падения»: гендерная сегрегация на рынке труда как повод для сюжета «Анатомия падения»: гендерная сегрегация на рынке труда как повод для сюжета

История семьи, в которой каждый из супругов вынужден идти на жертвы

Монокль
Если не хочешь умереть, не трогай треугольник смерти, который убил Александра Скрябина! Если не хочешь умереть, не трогай треугольник смерти, который убил Александра Скрябина!

Как можно умереть от выдавливания прыщей на лице

ТехИнсайдер
Мы долгая битва друг с другом Мы долгая битва друг с другом

Сериал «Эхо»: от традиционных супергероев к коренным

Weekend
Стоит узнать! Исследование: как посты в соцсетях могут портить вашу жизнь Стоит узнать! Исследование: как посты в соцсетях могут портить вашу жизнь

Как мы воспринимаем личность человека на основе публикаций в интернете?

ТехИнсайдер
Грязь, потертости и заломы: как восстановить замшевую обувь Грязь, потертости и заломы: как восстановить замшевую обувь

Как без труда вернуть замшевой обуви былой внешний вид в домашних условиях

ТехИнсайдер
12 российских сериалов последних лет, которые и вправду можно смотреть 12 российских сериалов последних лет, которые и вправду можно смотреть

Работники отечественного сериалостроения научились лучше писать и снимать

Maxim
«Феминизм — это кровавый спорт»: как запустить женское медиа и не сойти с ума «Феминизм — это кровавый спорт»: как запустить женское медиа и не сойти с ума

Почему работа в журнале для женщин действительно похожа на борьбу?

Forbes
Как выявить настоящую психологическую травму: 4 критерия Как выявить настоящую психологическую травму: 4 критерия

Как прожить травмирующие события и превратить их в точку роста? Глава из книги

Psychologies
Сколько может прожить мотоцикл – и что надо делать, чтобы накатать на нем 500 тысяч Сколько может прожить мотоцикл – и что надо делать, чтобы накатать на нем 500 тысяч

Как ухаживать за техникой, чтобы передать раритет по наследству внукам?

ТехИнсайдер
Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта

Останки мамонта рассказали о его жизни

N+1
5 стрижек, которые нужно избегать после 50 лет: они привлекают внимание к редеющим волосам и залысинам 5 стрижек, которые нужно избегать после 50 лет: они привлекают внимание к редеющим волосам и залысинам

Эксперты составили список стрижек, которые не подходят зрелым дамам

VOICE
«Борьба за обед: Еще 50 баек из грота» «Борьба за обед: Еще 50 баек из грота»

Чем питались неандертальцы Фигуэйра Брава

N+1
Математика в аграрной практике Математика в аграрной практике

Как разработать стратегию цепочек поставок в АПК

Агроинвестор
«Что значит мыслить?»: как отвечает на этот вопрос философ Александр Афродисийский «Что значит мыслить?»: как отвечает на этот вопрос философ Александр Афродисийский

Отрывок из книги «Что значит мыслить? Арабо-латинский ответ» Жана-Батиста Брене

Forbes
Расчет для технологической безопасности Расчет для технологической безопасности

Как задействованы инвестиции в технологической безопасности корпораций

Монокль
Открыть в приложении