«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

История мира в шести стаканах История мира в шести стаканах

Как ваши любимые напитки изменили мир

kiozk originals
«Наше кино является нашим лицом» «Наше кино является нашим лицом»

Режиссер Егор Кончаловский о советском кино, американской мечте и русских Рэмбо

FP. BusinessReview
Суперобучение Суперобучение

Система освоения любых навыков – от изучения языков до построения карьеры

kiozk originals
Татьяна Правдина: «Когда Зяма смотрел свои фильмы, всегда говорил: «Это — не то!» Татьяна Правдина: «Когда Зяма смотрел свои фильмы, всегда говорил: «Это — не то!»

Актеру Зиновию Гердту было 44 года, а переводчице Татьяне Правдиной — 32

Коллекция. Караван историй
Что произойдет с вашим телом, если отказаться от молока: поразительно! Что произойдет с вашим телом, если отказаться от молока: поразительно!

Исключение молока из рациона может иметь интересные последствия для организма

ТехИнсайдер
Евгений Липовицкий: Как я открыл вселенную автохимии Евгений Липовицкий: Как я открыл вселенную автохимии

Таинственный мир моторных масел, допусков, сертификаторов и других жидкостей

4x4 Club
20 спорных и культовых фильмов про секс: от «Интимных мест» до «Служанки» 20 спорных и культовых фильмов про секс: от «Интимных мест» до «Служанки»

Фильмы, которые рассматривают интимность и любовные интриги

РБК
Философ у отверстого гроба Философ у отверстого гроба

Жизнь и смерть французского философа Николя де Кондорсе

Знание – сила
Те и эти Те и эти

Как жила немецкая культура при нацизме

Weekend
Бизнес как спорт Бизнес как спорт

Генеральный директор компании FIRST Максим Сергеев — об искусстве быть первым

FP. BusinessReview
Цифровые улики: как соцсети помогают находить активы и выигрывать суды Цифровые улики: как соцсети помогают находить активы и выигрывать суды

Как социальные сети могут использовать против владельца страницы

Forbes
Античный коммунизм Античный коммунизм

Кто всех суровее в Древней Греции?

Дилетант
Едим и… худеем! Едим и… худеем!

Полезные продуктов, которые снижают усвоение жира

Добрые советы
Управляющий директор Okkam Creative Ольга Петрова: Люди привыкли доверять советам других людей Управляющий директор Okkam Creative Ольга Петрова: Люди привыкли доверять советам других людей

Интервью с управляющим директором Okkam Creative Ольгой Петровой

СНОБ
Личные границы Личные границы

Каким должен быть забор между соседями в частном доме по закону

Лиза
«Мне больше не нужно общение с другими девушками»: как и почему рушится дружба между мужчинами и женщинами «Мне больше не нужно общение с другими девушками»: как и почему рушится дружба между мужчинами и женщинами

Почему от нас уходят друзья, которые вступают в отношения?

Psychologies
Всю жизнь — в тепле Всю жизнь — в тепле

В горячих источниках жизнь коротка, но открывает новые возможности

Наука
Забудь, если ты на диете Забудь, если ты на диете

10 самых калорийных фруктов

Лиза
Удар по почкам. 8 неожиданных привычек, которые могут навредить твоим почкам Удар по почкам. 8 неожиданных привычек, которые могут навредить твоим почкам

Есть привычки, которым мы не придаем значения, но которые вредят нашим почкам

Лиза
Она раскрыла убийства: лучшие современные сериалы о женщинах-детективах Она раскрыла убийства: лучшие современные сериалы о женщинах-детективах

Исследуем образ героини, которая ищет преступников в современных сериалах

Forbes
Партком тут бессилен Партком тут бессилен

Как советская производственная драма оказалась политической

Weekend
Жить как в отеле «пять звёзд» Жить как в отеле «пять звёзд»

Воздушный и роскошный интерьер в квартире

Идеи Вашего Дома
Ранняя седина. 12 неожиданных причин, о которых ты даже не думала Ранняя седина. 12 неожиданных причин, о которых ты даже не думала

В некоторых случаях седина может появиться раньше, чем ты ожидаешь. Почему так?

Лиза
«Рынок серьезно изменился, прежние правила игры уже не актуальны» «Рынок серьезно изменился, прежние правила игры уже не актуальны»

СЕО банка «Точка» Андрей Завадских об адаптации банков к запросам рынка

Деньги
Сейчас разберемся (в себе) Сейчас разберемся (в себе)

Трансформационные игры – просто забава или способ изменить жизнь?

VOICE
Дзержинский и дети: почему в России не получилось декоммунизации Дзержинский и дети: почему в России не получилось декоммунизации

Почему в постсоветской России не появилось нового символа спецслужб

Forbes
Вижу цель. Как не потеряться в потоке информации Вижу цель. Как не потеряться в потоке информации

Как оставаться верным своим целям и не поддаваться на манипуляции

СНОБ
Яркий джапанди Яркий джапанди

Скандинавский и восточный минимализм в интерьере квартиры в Казани

Идеи Вашего Дома
«Перестаньте искать предназначение!»: 3 фактора, которые нужно иметь в виду «Перестаньте искать предназначение!»: 3 фактора, которые нужно иметь в виду

Заигравшись в поиски себя, можно пропустить настоящую жизнь

Psychologies
Чтим кодекс Чтим кодекс

Алименты для пап и еще ряд изменений в законах с сентября 2023 года

Лиза
Открыть в приложении