«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как выйти из треугольника Карпмана Как выйти из треугольника Карпмана

Как и почему мы выбираем роли в конфликтах и созависимых отношениях?

Psychologies
Анна Меркулова: «Развитие метростроительства связано с цифровизацией» Анна Меркулова: «Развитие метростроительства связано с цифровизацией»

Как развивается транспортная инфраструктура в регионах

РБК
Суперобучение Суперобучение

Система освоения любых навыков – от изучения языков до построения карьеры

kiozk originals
Запретить нельзя печатать. Как появился самиздат Запретить нельзя печатать. Как появился самиздат

Самиздат: неподцензурное производство литературы

СНОБ
Святой затворник Святой затворник

Этим летом исполнилось 660 лет со дня основания Борисоглебского монастыря

Отдых в России
Перспективы туризма на Чукотке: маршруты, мифы и природа Перспективы туризма на Чукотке: маршруты, мифы и природа

Чукотка активно развивает сферу туризма и восстанавливает турпоток

ФедералПресс
Итак, она была… брюнеткой Итак, она была… брюнеткой

Как отличаются героини эпохальных романов и актрисы, играющие их в экранизациях

Знание – сила
Животный мир Животный мир

Как вписать анималистический принт в интерьер, чтобы это не выглядело безвкусным

Лиза
Первая и последняя кошка астронавт: история Фелисетт Первая и последняя кошка астронавт: история Фелисетт

Как одна бездомная кошка стала космонавтом

ТехИнсайдер
Александр Чулок: «Ключевым показателем общества станет уровень счастья человека» Александр Чулок: «Ключевым показателем общества станет уровень счастья человека»

Что ждет человечество в 2050 году и какие тренды уже сейчас влияют на общество?

РБК
РОП неотвратимый: как алюминий поможет очистить природу РОП неотвратимый: как алюминий поможет очистить природу

Разбираемся в понятии расширенная ответственность производителя

ФедералПресс
Креативная Якутия: каких высот достигла республика в сфере IT Креативная Якутия: каких высот достигла республика в сфере IT

Как регион, прославившийся алмазами и мамонтами, стал ассоциироваться с IT?

ФедералПресс
Есть варианты. 10 альтернатив прикроватной тумбочке для маленькой спальни Есть варианты. 10 альтернатив прикроватной тумбочке для маленькой спальни

Прикроватная тумбочка нужна в каждой спальне. Но чем ее можно заменить?

Лиза
Меню оптимистки. 14 продуктов, которые помогают в  борьбе с апатией и депрессией Меню оптимистки. 14 продуктов, которые помогают в  борьбе с апатией и депрессией

Правильное питание поможет поднять настроение и выйти из депрессии

Лиза
Компьютер без привязи Компьютер без привязи

Что такое Wi-Fi и как им пользоваться

Цифровой океан
Народу опиум нипочем Народу опиум нипочем

«Стволы и розы»: ностальгия по 1990-м по-болливудски

Weekend
Нейросоцсеть Нейросоцсеть

Разговор с креативным директором LOOKY Артемом Коноваловым

ТехИнсайдер
Андрей Коняев: «Наука теряет монополию на описание мира» Андрей Коняев: «Наука теряет монополию на описание мира»

Почему науку сравнивают с гаданием на картах таро

РБК
«Рынок серьезно изменился, прежние правила игры уже не актуальны» «Рынок серьезно изменился, прежние правила игры уже не актуальны»

СЕО банка «Точка» Андрей Завадских об адаптации банков к запросам рынка

Деньги
Олег Кожемяко: «Приморье преодолело негативные последствия санкций» Олег Кожемяко: «Приморье преодолело негативные последствия санкций»

Приморский край играет ведущую роль в объявленном президентом курсе на Восток

ФедералПресс
Шутки ради Шутки ради

Что происходит с юмором сегодня и каким он будет завтра?

Men Today
«Я за то, чтобы жить настоящим» «Я за то, чтобы жить настоящим»

С Камилем Лариным мы поговорили о его новой роли, роботах и спорах с Siri

Лиза
«Трудно современному писателю, особенно русскому, быть покойным» «Трудно современному писателю, особенно русскому, быть покойным»

Иван Тургенев о том, как оставаться актуальным русским писателем даже вне России

Weekend
Хоррор дожития Хоррор дожития

Как Джордж А. Ромеро напугал стариками борцов с эйджизмом

Weekend
Мой мальчик Мой мальчик

Пары, в которых мужчина заметно моложе женщины, вызывают неоднозначную реакцию

VOICE
«Пиксель. История одной точки» «Пиксель. История одной точки»

Как инженеры создали первые цифровые изображения

N+1
Интерстеллар Интерстеллар

Испытываем внедорожные качества нового кроссовера Exeed RX

Автопилот
Интерьер на счастье Интерьер на счастье

Бюро объединило четыре квартиры на последнем этаже московской новостройки

SALON-Interior
Если друг оказался вдруг... Если друг оказался вдруг...

Владельцы собак рассказали о диких советах от незнакомцев

Лиза
Сбежавшая дочь и неудачные браки: одиночество Ларисы Удовиченко Сбежавшая дочь и неудачные браки: одиночество Ларисы Удовиченко

Лариса Удовиченко — яркая актриса СССР, которая заплатила за славу одиночеством

VOICE
Открыть в приложении