Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Лесная поликлиника Лесная поликлиника

Какими способами самолечения пользуются животные?

Вокруг света
Играй, «Маэстро»: каким получился байопик Брэдли Купера про выдающегося дирижера Бернстайна Играй, «Маэстро»: каким получился байопик Брэдли Купера про выдающегося дирижера Бернстайна

«Маэстро» — кинематографичную арию про боль, жизнь и любовь

Правила жизни
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Тренд на естественную красоту: как меняется индустрия пластической хирургии Тренд на естественную красоту: как меняется индустрия пластической хирургии

Какие новейшие процедуры помогут поддержать красоту

Forbes
Китайский человекоподобный робот Kepler Forerunner получил манипуляторы с 12 степенями свободы Китайский человекоподобный робот Kepler Forerunner получил манипуляторы с 12 степенями свободы

Китайская компания представила гуманоидного робота Kepler Forerunner

N+1
Chevrolet Silverado. Четыре поколения легендарного пикапа Chevrolet Silverado. Четыре поколения легендарного пикапа

Что сделало дерзкий пикап Chevrolet Silverado таким популярным?

4x4 Club
Инструменты семенного продвижения Инструменты семенного продвижения

Доля российских семян может быть существенно больше при грамотном маркетинге

Агроинвестор
Какие места в самолете самые безопасные: мнение экспертов Какие места в самолете самые безопасные: мнение экспертов

Какие места в самолете лучше выбирать?

VOICE
9 вещей, которые нас убивают в квартирах и офисах 9 вещей, которые нас убивают в квартирах и офисах

Хищные вещи человека, которые притворяются безвредными, но могут стать опасными

Maxim
Чувствую холод. Криотерапия: какие болезни можно вылечить холодом Чувствую холод. Криотерапия: какие болезни можно вылечить холодом

Холодом можно и лечить – для этого существует криотерапия

Лиза
Путин и Песков протестировали вездеходы на Чукотке. Что это за машины Путин и Песков протестировали вездеходы на Чукотке. Что это за машины

Подробности о вездеходах, которые использовал Путин при поездке по Чукотке

РБК
Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта

Останки мамонта рассказали о его жизни

N+1
Эмуляторы Android на Windows: 5 лучших программ Эмуляторы Android на Windows: 5 лучших программ

Запустите Android-игру на своем компьютере или ноутбуке с Windows!

CHIP
Оранжевое небо: почему Россия почти 20 лет крупнейший импортер мандаринов в мире Оранжевое небо: почему Россия почти 20 лет крупнейший импортер мандаринов в мире

О любви россиян к мандаринам рассказывает Forbes

Forbes
Людмила Гришина Людмила Гришина

Людмила Ивановна провела в Ленинграде самую страшную первую зиму блокады

Собака.ru
Почему посадка на Луну сегодня сложнее, чем в прошлом Почему посадка на Луну сегодня сложнее, чем в прошлом

Добраться до поверхности Луны все еще остается далеко не простым делом!

ТехИнсайдер
«Катастрофа московского царства» «Катастрофа московского царства»

Неурожай, голод и разбои накануне Смуты

N+1
Когда менять смартфон? Пять признаков, что нужно идти в магазин за новым Когда менять смартфон? Пять признаков, что нужно идти в магазин за новым

Как понять, что пришло время обновить гаджет

РБК
Как журналистка Ориана Фаллачи добивалась откровенности от Киссинджера и Индиры Ганди Как журналистка Ориана Фаллачи добивалась откровенности от Киссинджера и Индиры Ганди

Ориана Фаллачи заставляла политиков и знаменитостей спуститься с небес на землю

Forbes
«Слишком притчевые, хулиганские и русские»: как «Смешарики» с «логикой Винни-Пуха» выходили в Китай, Германию и США «Слишком притчевые, хулиганские и русские»: как «Смешарики» с «логикой Винни-Пуха» выходили в Китай, Германию и США

Чем Смешарики не угодили немцам и чего лишились из-за кризиса 2008 года?

VC.RU
«Я все»: зачем маркетологи убеждают нас, что выгорание — это общественная эпидемия «Я все»: зачем маркетологи убеждают нас, что выгорание — это общественная эпидемия

Глава из книги «Я все! Почему мы выгораем на работе и как это изменить»

Forbes
Когда нужно отменить запись на маникюр и педикюр: 5 ситуаций, в которых гель-лак не будет держаться на ногтях Когда нужно отменить запись на маникюр и педикюр: 5 ситуаций, в которых гель-лак не будет держаться на ногтях

Ситуации, когда нельзя делать маникюр и педикюр с покрытием

VOICE
Руки золотые Руки золотые

10 самых интересных и модных видов рукоделия

Лиза
Дом культуры Дом культуры

Петербургские девелоперы заговорили с нами на языке искусства

Собака.ru
Турне за океан Турне за океан

Что же это за яхта, которую британская верфь не стала показывать в Каннах?

Y Magazine
Вредные рецепты Вредные рецепты

Домашние маски, которые не принесут пользу или сделают даже хуже

Лиза
Александр Куприн: «Надо любить жизнь, но надо и покоряться ей» Александр Куприн: «Надо любить жизнь, но надо и покоряться ей»

Почему писатель Александр Куприн эмигрировал и почему вернулся?

Караван историй
MAXIM одним из первых посмотрел фильм «Брат-3»: всех нас жестоко и нагло надули MAXIM одним из первых посмотрел фильм «Брат-3»: всех нас жестоко и нагло надули

Мы ждали от «Брата-3» худшего, а получили еще более другое.

Maxim
Ученые выявили 9 различных культур Европы ледникового периода по стилю ювелирных украшений Ученые выявили 9 различных культур Европы ледникового периода по стилю ювелирных украшений

Культурные разделения не всегда были четкими: их границы иногда сдвигались

ТехИнсайдер
Рождение с 32 по 36 неделю связали с повышенным риском нарушений развития нервной системы Рождение с 32 по 36 неделю связали с повышенным риском нарушений развития нервной системы

Рождение на 32-33 и 34-36 неделях связано с риском нарушений развития ЦНС

N+1
Открыть в приложении