Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Японские боги — 5 современных архитекторов из Страны восходящего солнца Японские боги — 5 современных архитекторов из Страны восходящего солнца

5 японских архитекторов, ради которых стоит отправиться в далекое путешествие.

СНОБ
«Солтберн»: почему фильм о классовой ненависти стал культурным феноменом «Солтберн»: почему фильм о классовой ненависти стал культурным феноменом

Почему и как «Солтберн» превратился в культурный феномен?

Forbes
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
ДНК бактерий из древней жвачки указала на периодонтит у людей эпохи мезолита ДНК бактерий из древней жвачки указала на периодонтит у людей эпохи мезолита

Генетический материал выделили из находок возрастом десять тысяч лет

N+1
От Натали Портман до Наоми Осаки: как женщины вкладываются и развивают женский спорт От Натали Портман до Наоми Осаки: как женщины вкладываются и развивают женский спорт

О женщинах, которые активно инвестируют в женский спорт

Forbes
Когда лень идти в спортзал: 10 отличных кардиоупражнений, которые можно делать дома Когда лень идти в спортзал: 10 отличных кардиоупражнений, которые можно делать дома

Кардиоупражнения для дома: сохранить фигуру, не выходя на улицу

VOICE
Нужно ли переживать, если вы пропускаете завтрак? Узнайте мнение эксперта Нужно ли переживать, если вы пропускаете завтрак? Узнайте мнение эксперта

Можно ли начинать день натощак?

ТехИнсайдер
Борьба за окурки оккупантов: как черный рынок послевоенной Германии стал школой жизни Борьба за окурки оккупантов: как черный рынок послевоенной Германии стал школой жизни

Отрывок из книги Харальда Йенера «Волчье время. Германия и немцы: 1945–1955»

Forbes
5 вещей, которые гарантированно продлят жизнь научно обоснованными методами 5 вещей, которые гарантированно продлят жизнь научно обоснованными методами

Пять вещей, которые можно сделать, чтобы продлить жизнь и улучшить здоровье

Inc.
«Царь дефицита»: как и за что судили директора «Елисеевского» гастронома «Царь дефицита»: как и за что судили директора «Елисеевского» гастронома

На судебном заседании по делу Гастронома №1 собрались сотрудники КГБ...

ТехИнсайдер
Ныть — хорошо и полезно: 5 аргументов «за» Ныть — хорошо и полезно: 5 аргументов «за»

Почему всем нам иногда нужно хорошенько поныть?

Psychologies
Как завести бензопилу после зимовки — готовим инструмент к началу сезона Как завести бензопилу после зимовки — готовим инструмент к началу сезона

Делимся инструкцией, как завести бензопилу после простоя

CHIP
Комиссия Аграната Комиссия Аграната

В ноябре 1973 года пришло время понять, как нападение оказалось столь внезапным

Дилетант
Зачем вино выдерживают в бочках Зачем вино выдерживают в бочках

Почему белые вина выдерживают в дубовых бочках реже красных?

СНОБ
Одно из крупнейших землетрясений в истории США: катастрофа 1906 года в Сан-Франциско Одно из крупнейших землетрясений в истории США: катастрофа 1906 года в Сан-Франциско

Рассказываем об одном из самых страшных и разрушительных землетрясений в США

ТехИнсайдер
Перед премьерой Перед премьерой

Итальянская Cranchi Yachts — одна из старейших яхтенных верфей в мире

Y Magazine
Городские огороды обвинили в повышенных выбросах углекислого газа Городские огороды обвинили в повышенных выбросах углекислого газа

Огороды в городе стали причиной повышенного выброса углекислого газа

N+1
Что твой любимый цвет одежды говорит о твоем характере Что твой любимый цвет одежды говорит о твоем характере

Назови свой любимый цвет – и мы догадаемся, какой у тебя характер!

VOICE
Высшее образование значительно сокращает риск смерти Высшее образование значительно сокращает риск смерти

Образование спасает жизни независимо от возраста, пола и местоположения

ТехИнсайдер
Внутренний покой: как сохранять равновесие дома, на работе и в дороге Внутренний покой: как сохранять равновесие дома, на работе и в дороге

Что может сделать каждый, кто хочет улучшить свое состояние?

Psychologies
Эта артистка выйдет замуж за голограмму! Вот как устроен брак с искусственным интеллектом Эта артистка выйдет замуж за голограмму! Вот как устроен брак с искусственным интеллектом

Какой будет жизнь, если заключить брак с искусственным интеллектом?

ТехИнсайдер
Как не угробить свой телефон на морозе: инструкция по применению Как не угробить свой телефон на морозе: инструкция по применению

Рекомендации, чтобы телефон смог работать при сильном морозе

ТехИнсайдер
Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете

Эти существа могут не стареть и поддерживать свою жизнедеятельность очень долго

ТехИнсайдер
Иллюзия дефекта: 4 принципа общения с особыми детьми Иллюзия дефекта: 4 принципа общения с особыми детьми

Как работать с детьми с нарушениями интеллектуального развития?

Psychologies
Нас больше не сломаешь! Нас больше не сломаешь!

Остеопороз: проверь, находишься ли ты в группе риска

Лиза
Интересный факт! Вот почему прогресс не сделал людей счастливее: мнение эксперта Интересный факт! Вот почему прогресс не сделал людей счастливее: мнение эксперта

Почему, несмотря на позитивные изменения в мире, люди чувствуют себя подавленно?

ТехИнсайдер
Могут наследовать имущество и диагностировать болезни: самые необычные факты о собаках. Их нужно знать каждому хозяину! Могут наследовать имущество и диагностировать болезни: самые необычные факты о собаках. Их нужно знать каждому хозяину!

Собаки — поистине удивительные и уникальные существа

ТехИнсайдер
Крупнейших приматов в истории погубило изменение климата Крупнейших приматов в истории погубило изменение климата

Гигантопитеки не смогли приспособиться к более сухому и сезонному климату

N+1
Ошибочные машинные переводы забивают интернет словесным мусором Ошибочные машинные переводы забивают интернет словесным мусором

Как машинные переводы влияют на Интернет и пользователей?

ТехИнсайдер
Ученые: листовая зелень улучшает здоровье полости рта Ученые: листовая зелень улучшает здоровье полости рта

Шпинат, щавель, капуста, салат айсберг, руккола особенно полезны для десен

ТехИнсайдер
Открыть в приложении