«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Относиться к человечеству как к цели, а не как к средству Относиться к человечеству как к цели, а не как к средству

Триста лет одному из главных мыслителей в истории человечества — Иммануилу Канту

Наука
Радиоактивность, которая лечит Радиоактивность, которая лечит

Ядерная медицина — одно из наиболее динамично развивающихся направлений науки

Наука
Суперобучение Суперобучение

Система освоения любых навыков – от изучения языков до построения карьеры

kiozk originals
Парк Никола-Ленивец: что делать в Калужской области Парк Никола-Ленивец: что делать в Калужской области

Парк Никола-Ленивец — крупнейший в Европе парк ленд-арта

Psychologies
Незаметность простоты Незаметность простоты

Кутюрье Марк Боан: самая долгая карьера и жизнь в истории моды XX века

Weekend
Искусственный интеллект и нейросети: страхи и перспективы Искусственный интеллект и нейросети: страхи и перспективы

Насколько опасно может быть внедрение ИИ в повседневную жизнь человека

ФедералПресс
Электрический ключ к прекрасному Электрический ключ к прекрасному

Ученые исследуют нейрофизиологические механизмы восприятия произведений живописи

Наука
Нас атакуют Нас атакуют

Передовые способы защиты от DDoS-атак

Цифровой океан
«Солнечные космические лучи — моя любовь…» «Солнечные космические лучи — моя любовь…»

Галина Базилевская об исследованиях физики Солнца и космических лучей

Наука и жизнь
Семь необычных причин головной боли Семь необычных причин головной боли

Как самим определить «нестандартные» причины возникновения головной боли?

Здоровье
Ученый нашел эффективный способ избавить дороги от выбоин и трещин Ученый нашел эффективный способ избавить дороги от выбоин и трещин

Можно ли предотвратить образование выбоин на дороге?

ТехИнсайдер
В офис в тапочках В офис в тапочках

7 лучших профессий для удаленной работы

Лиза
Механические дрожки уральского мастера Механические дрожки уральского мастера

Заглянем в Зал карет Реставрационно-хранительского центра Эрмитажа

Дилетант
Как избавиться от одиночества и как с ним справиться Как избавиться от одиночества и как с ним справиться

Почему общительные люди тоже ощущают одиночество?

Psychologies
Как правильно принимать любые решения: рассказывает психолог Как правильно принимать любые решения: рассказывает психолог

Почему так важно, чтобы выбор был непременно правильным?

VOICE
«Рок-н-ролл мертв. А я еще нет...» «Рок-н-ролл мертв. А я еще нет...»

С 1981 года ленинградский рок-клуб стал «местом силы» отечественного рок-н-ролла

Men Today
Лицо в точечку Лицо в точечку

Новообразования на коже доставляют много неудобств. Как с ними быть?

Лиза
Наука в России: «Открываются очень большие перспективы» Наука в России: «Открываются очень большие перспективы»

Как достигнуть научного и технологического суверенитета в стране?

ФедералПресс
Десерт антипода Десерт антипода

Для любого австралийца сладким символом его страны будет пирожное ламингтон

Вокруг света
Темные миры Темные миры

Таинственные тоннели, подземные водоемы, удивительной красоты сталактиты

Вокруг света
Неудачный байопик о выдающейся женщине: почему нас разочаровал фильм о Голде Меир Неудачный байопик о выдающейся женщине: почему нас разочаровал фильм о Голде Меир

Почему фильм о сильной женщине Голде Меир получился таким слабым?

Forbes
За водой на лунный южный полюс («Луна-25» и другие) За водой на лунный южный полюс («Луна-25» и другие)

Задачи, которые стояли перед «Луной-25», никуда не делись. Их придётся решать

Наука и жизнь
Доктор и политик: как Анна Шабанова боролась за право работать и голосовать Доктор и политик: как Анна Шабанова боролась за право работать и голосовать

Анна Шабанова: одна из первых женщин-врачей и феминисток России?

Forbes
Синдром седьмого сентября Синдром седьмого сентября

После первой недели в школе ребёнок жалуется на плохое самочувствие... Почему?

Здоровье
Создатель андроида Fedor: «Робот станет ассистентом» Создатель андроида Fedor: «Робот станет ассистентом»

Какие технологические прорывы нас ждут в области робототехники?

ФедералПресс
Дело техники Дело техники

ИИ-тренер по гольфу с машинным зрением

Цифровой океан
Лесам выдают паспорта Лесам выдают паспорта

Неисчерпаемость лесных ресурсов России может быстро подойди к концу

Наука
Хоррор дожития Хоррор дожития

Как Джордж А. Ромеро напугал стариками борцов с эйджизмом

Weekend
Так было или не было? Так было или не было?

7 самых известных мифов в истории человечества

Лиза
Всю жизнь — в тепле Всю жизнь — в тепле

В горячих источниках жизнь коротка, но открывает новые возможности

Наука
Открыть в приложении