«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Мы выбираем друг друга не случайно Мы выбираем друг друга не случайно

Выбор партнера предопределен всем предшествующим ходом нашей жизни

Psychologies
Сел и уснул: 10 лайфхаков, как хорошенько выспаться в самолете Сел и уснул: 10 лайфхаков, как хорошенько выспаться в самолете

Как «отключиться» от внешних раздражителей и погрузиться в сон на время полета

ТехИнсайдер
Философия библиотеки Философия библиотеки

Библиотека – в чем ее высшее назначение и сакральный смысл?

Знание – сила
Решения от UST Inc. конкурируют с Tesla по безопасности Решения от UST Inc. конкурируют с Tesla по безопасности

Какие решения по повышению безопасности беспилотников предлагает UST Inc

ФедералПресс
Киборги Киборги

Что если сращивание человека с техникой давно произошло, просто мы не заметили?

Правила жизни
Между нами, девочками Между нами, девочками

Как визит к гинекологу помогает решить проблемы с кожей

Лиза
Музыкальная пауза: как Тупак Шакур воспел Западное побережье в California Love Музыкальная пауза: как Тупак Шакур воспел Западное побережье в California Love

Как Тупак Шакур записал один из главных хитов в карьере — California Love

Правила жизни
10 сериалов про российскую глубинку: от Пензы до Уссурийска 10 сериалов про российскую глубинку: от Пензы до Уссурийска

Комедии, детективы и ужасы, происходящие в российской глубинке

Maxim
Нейросети, Арктика и косатки: 7 отличных научных фильмов Нейросети, Арктика и косатки: 7 отличных научных фильмов

Актуальное научное кино на разные темы: от изучения космоса до жизни насекомых

Правила жизни
Грузовики вытягивают авторынок Грузовики вытягивают авторынок

В России рекордными темпами растут продажи грузовиков

Эксперт
Анна Меркулова: «Развитие метростроительства связано с цифровизацией» Анна Меркулова: «Развитие метростроительства связано с цифровизацией»

Как развивается транспортная инфраструктура в регионах

РБК
Что произойдет с вашим телом, если отказаться от молока: поразительно! Что произойдет с вашим телом, если отказаться от молока: поразительно!

Исключение молока из рациона может иметь интересные последствия для организма

ТехИнсайдер
Главное действующее лицо по-прежнему студент Главное действующее лицо по-прежнему студент

Как сохранить творческую атмосферу на факультете?

Знание – сила
Кто и зачем покупает премиальную недвижимость в Москве Кто и зачем покупает премиальную недвижимость в Москве

Почему желающих вложить миллионы в трофейные московские метры по-прежнему много

СНОБ
Лесные барабанщики Лесные барабанщики

Лес в середине лета затихает, но только кажется безжизненным

Наука и жизнь
Аскезы, диджитал-детокс и другое Аскезы, диджитал-детокс и другое

Какие из оздоровительных практик героини решили испытать на себе, и что вышло?

Здоровье
Гвоздика Гвоздика

В античной медицине её считали средством, укрепляющим желудок и печень

Здоровье
Партком тут бессилен Партком тут бессилен

Как советская производственная драма оказалась политической

Weekend
12 главных проблем, которые создает трезвый образ жизни 12 главных проблем, которые создает трезвый образ жизни

Почему воздержание от алкоголя — плохая идея

Maxim
Как правильно принимать любые решения: рассказывает психолог Как правильно принимать любые решения: рассказывает психолог

Почему так важно, чтобы выбор был непременно правильным?

VOICE
Не только пуховый платок: главные достопримечательности Оренбуржья Не только пуховый платок: главные достопримечательности Оренбуржья

Оренбургская область — удивительный регион, богатый историей и культурой

ФедералПресс
Приемы в общении с лжецами: как узнать правду Приемы в общении с лжецами: как узнать правду

Как распознать лжеца и вывести его на чистую воду, чтобы все же узнать правду?

VOICE
Что делать, если подозреваешь у себя дефицит витамина D и почему нельзя принимать его без врача? Что делать, если подозреваешь у себя дефицит витамина D и почему нельзя принимать его без врача?

Как безопасно восполнять витамин D?

VOICE
Танец — это голос: как первые российские фильмы изображали эмансипированных женщин Танец — это голос: как первые российские фильмы изображали эмансипированных женщин

Глава из книги «Изображая женственность» — об артистках в раннем русском кино

Forbes
Мясная отрасль переходит на длинные контракты Мясная отрасль переходит на длинные контракты

Почему дорожает мясо?

Эксперт
Русский авиапром отвоевывает небо Русский авиапром отвоевывает небо

«Суперджет» и серьезный рывок на пути к обретению звания «российский самолет»

Эксперт
Воспоминания — и дом, и путь нашей жизни Воспоминания — и дом, и путь нашей жизни

Разговор с режиссером Рут Хоф и её мужем Гаем Сааром Русо

Seasons of life
Парадоксальная угроза Парадоксальная угроза

Одна из самых интересных битв вокруг ИИ развернется не в области техники

Правила жизни
Любовь, обиды, травмы и панк-рок: семь фильмов об отношениях матери и дочери Любовь, обиды, травмы и панк-рок: семь фильмов об отношениях матери и дочери

Фильмы, в которых отношения между матерью и дочерью принимают самую разную форму

Forbes
Античный коммунизм Античный коммунизм

Кто всех суровее в Древней Греции?

Дилетант
Открыть в приложении