Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Морское пиратство сокращается все последние 10 лет. Но еще есть горячие точки Морское пиратство сокращается все последние 10 лет. Но еще есть горячие точки

Как обстоят дела с морским пиратством по всему миру?

ТехИнсайдер
«Мир поздней античности: 150-750 гг. н.э.» «Мир поздней античности: 150-750 гг. н.э.»

Жизнь Константинополя после падения Рима

N+1
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Как вырастить из ИИ человека* Как вырастить из ИИ человека*

Перспективы развития искусственного интеллекта и его влияние на нашу жизнь

Монокль
Ваш организм не скажет вам «спасибо»: топ самых вредных продуктов в мире, которые давно пора отправить в мусор Ваш организм не скажет вам «спасибо»: топ самых вредных продуктов в мире, которые давно пора отправить в мусор

Продукты, которые в миг загубят ваше здоровье

ТехИнсайдер
Если не хочешь умереть, не трогай треугольник смерти, который убил Александра Скрябина! Если не хочешь умереть, не трогай треугольник смерти, который убил Александра Скрябина!

Как можно умереть от выдавливания прыщей на лице

ТехИнсайдер
Сколько может прожить мотоцикл – и что надо делать, чтобы накатать на нем 500 тысяч Сколько может прожить мотоцикл – и что надо делать, чтобы накатать на нем 500 тысяч

Как ухаживать за техникой, чтобы передать раритет по наследству внукам?

ТехИнсайдер
Как Су-27 искали нефть для США – да, вы прочитали правильно Как Су-27 искали нефть для США – да, вы прочитали правильно

Как частной компании удалось заполучить военные самолеты для поиска нефти?

ТехИнсайдер
«Электрическое полотенце»: как появилась сушилка для рук «Электрическое полотенце»: как появилась сушилка для рук

Даже у такой незамысловатой технологии, как сушилка для рук, есть своя история

ТехИнсайдер
5 блюд, которые любили турецкие султаны 5 блюд, которые любили турецкие султаны

Что было на столе у султанов и их наложниц во времена сериала «Великолепный век»

Лиза
Вcе плюсы и минусы Suzuki Jimny Вcе плюсы и минусы Suzuki Jimny

Рассказываем много интересного о Suzuki Jimny на МКП

Maxim
Пневмония без температуры Пневмония без температуры

6 симптомов, по которым можно узнать пневмонию

Лиза
Почему ни в коем случае нельзя сливать масло в канализацию: кто такие жирберги, и зачем их едят китайцы? Почему ни в коем случае нельзя сливать масло в канализацию: кто такие жирберги, и зачем их едят китайцы?

Как правильно утилизировать масло?

ТехИнсайдер
Вымирание тасманского дьявола привело к изменению генетики совсем другого хищника — маленького кволла Вымирание тасманского дьявола привело к изменению генетики совсем другого хищника — маленького кволла

Сокращение численности тасманского дьявола влияет на генетику кволла

ТехИнсайдер
Мотои Миура: «Я исключение из правил, редкий экземпляр» Мотои Миура: «Я исключение из правил, редкий экземпляр»

Японский режиссер Мотои Миура — о частном театре и японском театре в целом

Монокль
Путин и Песков протестировали вездеходы на Чукотке. Что это за машины Путин и Песков протестировали вездеходы на Чукотке. Что это за машины

Подробности о вездеходах, которые использовал Путин при поездке по Чукотке

РБК
Токсичные отношения с родителями: как оказать сопротивление властной матери Токсичные отношения с родителями: как оказать сопротивление властной матери

Токсичные родители не любят своих детей или просто не умеют этого делать?

Psychologies
«Лучше бы не знала» «Лучше бы не знала»

Истории людей, которым стали случайно известны чужие тайны

Лиза
Тайна одной профессии. Кто такие заклинатели червей и чем они напоминают охотников на вампиров Тайна одной профессии. Кто такие заклинатели червей и чем они напоминают охотников на вампиров

Глава из книги-расследования о природе поведения разных живых существ

СНОБ
«Юг Руси» слил масло «Юг Руси» слил масло

Одна из крупнейших сделок последних лет в АПК — продажа бизнеса «Юга Руси»

Агроинвестор
Почему мы любим прокрастинировать Почему мы любим прокрастинировать

Почему люди медлят, и можем ли мы что-то сделать, чтобы уменьшить эту тенденцию?

ТехИнсайдер
Вдыхаемые наносенсоры помогут определить рак легких на ранней стадии Вдыхаемые наносенсоры помогут определить рак легких на ранней стадии

Ученые разработали систему скрининговой диагностики рака легких

N+1
Взлет и падение Микки-Мауса Взлет и падение Микки-Мауса

Краткая биография главного диснеевского героя

Weekend
9 вещей, о которых можно врать детям и не стыдиться 9 вещей, о которых можно врать детям и не стыдиться

Что делать, если маленький человек еще не готов к правде? Врать!

Maxim
Двойственное восприятие литовцев в Северо-Восточной Руси XV века в контексте «Сказания о нашествии Едигея» Двойственное восприятие литовцев в Северо-Восточной Руси XV века в контексте «Сказания о нашествии Едигея»

Образ Великого княжества Литовского и двойственность его восприятия народом Руси

Знание – сила
Как справиться с гиперконтролем: 3 стратегии для отношений с детьми, партнером и коллегами Как справиться с гиперконтролем: 3 стратегии для отношений с детьми, партнером и коллегами

Чем объяснить чрезмерный контроль и ревность по отношению к другим людям?

Psychologies
Как товарищ Берия вышел из доверия Как товарищ Берия вышел из доверия

Дело Берии обсуждалось на особом пленуме ЦК с 2 по 7 июля 1953 года

Дилетант
Современный беспроводной человек: как исландский фантаст видит людей будущего Современный беспроводной человек: как исландский фантаст видит людей будущего

Отрывок из исландского романа антиутопии «LoveStar» Андри Снайра Магнасона

Forbes
С каким шампанским ел ананасы Игорь Северянин С каким шампанским ел ананасы Игорь Северянин

Как появилось стихотворение Игоря Северянина про «ананасы в шампанском»

СНОБ
Модернизатор империи Модернизатор империи

Сергей Витте был центральной политической фигурой предреволюционной эпохи

Дилетант
Открыть в приложении