«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что говорит о нас наш дом Что говорит о нас наш дом

Организуя свой дом, мы воплощаем наши неосознанные влечения и инстинкты

Psychologies
Татьяна Лютаева: «Мне никогда не бывает скучно ни с собой, ни с окружающим миром» Татьяна Лютаева: «Мне никогда не бывает скучно ни с собой, ни с окружающим миром»

Подлинный триумф Татьяны Лютаевой состоялся на кинофестивале в Афинах

Караван историй
Почему у мужчин «пунктик» на анальном сексе? Почему у мужчин «пунктик» на анальном сексе?

Откуда у мужчин эта причудливая фиксация на анальном сексе

Cosmopolitan
Гимназия Санкт-Петербургской Академии наук: создание и становление Гимназия Санкт-Петербургской Академии наук: создание и становление

История первой гимназии Санкт-Петербургской Академии наук

Знание – сила
По дороге в Нальчик По дороге в Нальчик

Автопутешествие в горы мне запомнилось прежде всего невероятным смешением красок

Отдых в России
Осенние маршруты. ТОП-5 идей на уикенд Осенние маршруты. ТОП-5 идей на уикенд

Отправляйся путешествовать – в поисках идеальной осени!

Лиза
«Это счастье, когда человек на своем месте!» «Это счастье, когда человек на своем месте!»

Какой Михаил Полицеймако вне экрана и сцены?

Добрые советы
Женщины смотрят: что такое «женский взгляд» в кино Женщины смотрят: что такое «женский взгляд» в кино

Female gaze: что это такое и какие фильмы могут нас с этим понятием познакомить?

Правила жизни
Полезные бактерии. 5 простых способов восстановить микробиом кишечника Полезные бактерии. 5 простых способов восстановить микробиом кишечника

Налаженная работа пищеварительных органов – основа хорошего самочувствия

Лиза
Пьедестал не для всех Пьедестал не для всех

Почему «достигаторство» подходит не всем?

Добрые советы
Рестораны Рестораны

Главные герои московской гастрономической сцены

Robb Report
Арбузное настроение Арбузное настроение

5 небанальных рецептов из летней ягоды

Лиза
«Ничего не успеваю»: что такое синдром «белого кролика» «Ничего не успеваю»: что такое синдром «белого кролика»

Почему вам постоянно не хватает времени?

Psychologies
Пограничное состояние Пограничное состояние

Как криптобиржи помогут обойти санкции

FP. BusinessReview
Разумный Макс Разумный Макс

Флагманский кроссовер Chery дебютирует обновленным

Автопилот
Нежный возраст Нежный возраст

Лучшие идеи для обустройства и оформления детской комнаты

Добрые советы
Артроз Артроз

Артрозом страдают множество людей. Всё чаще коленки «скрипят» и у 20–30-летних

Здоровье
Почему у коршуна острое зрение Почему у коршуна острое зрение

Какие же особенности глаза позволяют птицам так хорошо видеть?

Наука и жизнь
Она раскрыла убийства: лучшие современные сериалы о женщинах-детективах Она раскрыла убийства: лучшие современные сериалы о женщинах-детективах

Исследуем образ героини, которая ищет преступников в современных сериалах

Forbes
Часы Часы

В списке трендов — зелёные циферблаты, титан и спецэффекты

Robb Report
Импульсивный инвестор Импульсивный инвестор

Как уроженец Шанхая стал легендарным американским финансистом

Деньги
Стандарты общения Стандарты общения

Как компаниям выстроить коммуникацию с аудиторией

Деньги
Интерстеллар Интерстеллар

Испытываем внедорожные качества нового кроссовера Exeed RX

Автопилот
«Интимная Русь. Жизнь без Домостроя, грех, любовь и колдовство» «Интимная Русь. Жизнь без Домостроя, грех, любовь и колдовство»

Как наши предки блудили на праздниках, говорили про секс и предлагали жениться

N+1
Радиоактивность, которая лечит Радиоактивность, которая лечит

Ядерная медицина — одно из наиболее динамично развивающихся направлений науки

Наука
Работа над ошибками Работа над ошибками

Какую работу над ошибками нужно провести, чтобы сохранить молодость кожи

Добрые советы
Как инвестбанкир Евгений Коган стал медиаперсоной и зарабатывает на личном бренде Как инвестбанкир Евгений Коган стал медиаперсоной и зарабатывает на личном бренде

Как инвестбанкир Евгений Коган стал главной финансовой звездой в Telegram

Forbes
Искусственный интеллект и нейросети: страхи и перспективы Искусственный интеллект и нейросети: страхи и перспективы

Насколько опасно может быть внедрение ИИ в повседневную жизнь человека

ФедералПресс
Тревожные люди Тревожные люди

Почему пропадают месячные, куда уходит либидо и как стресс влияет на зачатие

VOICE
5 самых распространенных проблем со стопами — почему они возникают и что с ними делать 5 самых распространенных проблем со стопами — почему они возникают и что с ними делать

Пять самых распространенных подологических патологий

VOICE
Открыть в приложении