Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Незабытое поколение Незабытое поколение

В чем смысл и выгода в поддержке старого софта и устройств

РБК
Медицинский случай: у очень редких «близнецов-пауков» три ноги, четыре руки и один пенис Медицинский случай: у очень редких «близнецов-пауков» три ноги, четыре руки и один пенис

Сиамские близнецы в Индонезии родились сросшимися, как «паук»

ТехИнсайдер
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
«Майор Гром: Игра слов»: эксклюзивный отрывок на MAXIM «Майор Гром: Игра слов»: эксклюзивный отрывок на MAXIM

Глава из книги «Майор Гром: Игра слов», в которой Игорь и Юля разгадывают тайну

Maxim
Мясные лидеры наращивают долю рынка Мясные лидеры наращивают долю рынка

Участники девятого рейтинга «Агроинвестора» продолжили наращивать производство

Агроинвестор
Мировая дюжина. 12 часовых марок от Глазго до Сингапура, в обход Швейцарии Мировая дюжина. 12 часовых марок от Глазго до Сингапура, в обход Швейцарии

12 интересных часовых марок откуда угодно, но не из Швейцарии

СНОБ
«Как живые: Двуногие змеи, акулы-зомби и другие исчезнувшие животные» «Как живые: Двуногие змеи, акулы-зомби и другие исчезнувшие животные»

Какой была переходная форма от рыбы к четвероногому

N+1
Ученые назвали суперфуд для укрепления костей: ни за что не догадаетесь Ученые назвали суперфуд для укрепления костей: ни за что не догадаетесь

Как чернослив влияет на здоровье костей?

ТехИнсайдер
Ремесло как искусство Ремесло как искусство

Вдохновляющий и наполненный фактурами интерьер студии керамики

SALON-Interior
Матери тратят 97 часов в неделю на выполнение родительских обязанностей Матери тратят 97 часов в неделю на выполнение родительских обязанностей

Материнство включает список обязанностей, который можно продолжать бесконечно

ТехИнсайдер
Выйти из тени: как спортсмены работают над личными брендами Выйти из тени: как спортсмены работают над личными брендами

Как найти себя и стать успешным за пределами арен и тренировочных полей

Forbes
Спрос на офисы в Москве стал рекордным за 10 лет Спрос на офисы в Москве стал рекордным за 10 лет

По итогам I квартала в Москве реализовано более 300 000 кв. м офисных площадей

Forbes
Не болей! Не болей!

5 признаков того, что твоя собака нездорова

Лиза
«Это сейчас был сексизм»: как микрофеминизм помогает женщинам бороться за свои права «Это сейчас был сексизм»: как микрофеминизм помогает женщинам бороться за свои права

Что такое микрофеминизм, как он может помочь женщинам в борьбе за равенство?

Forbes
X, Y, Z: как работать с людьми разных поколений X, Y, Z: как работать с людьми разных поколений

Почему люди X не могут работать с зумерами и в чем преимущество «игреков»?

Psychologies
А ведьмы кто: краткая история инквизиции между мифом и реальностью А ведьмы кто: краткая история инквизиции между мифом и реальностью

Что из историй об инквизиторах имеет под собой реальные основания, а что выдумка

Правила жизни
Станислав Житарев: «Это была самая настоящая дружба длиною в 45 лет» Станислав Житарев: «Это была самая настоящая дружба длиною в 45 лет»

Коля действительно был добрым и открытым человеком

Коллекция. Караван историй
«Монтессори: Воспитание любовью»: байопик о женщине, которая изменила педагогику «Монтессори: Воспитание любовью»: байопик о женщине, которая изменила педагогику

«Монтессори: Воспитание любовью»: фильм про педагога, чья методика покорила мир

Forbes
Медные слитки из минойского дворца Агия-Триада отлили из уральской руды Медные слитки из минойского дворца Агия-Триада отлили из уральской руды

Ученые проанализировали состав 15 медных слитков, обнаруженных на Крите

N+1
Как появилось то, без чего вообще нельзя выходить на улицу: история создания солнцезащитных средств Как появилось то, без чего вообще нельзя выходить на улицу: история создания солнцезащитных средств

Кому же мы обязаны за изобретение незаменимых средств, спасающих от солнца?

ТехИнсайдер
Внутреннее ощущение «красоты» важнее, чем внешность Внутреннее ощущение «красоты» важнее, чем внешность

Намного важнее чувствовать себя хорошо, чем выглядеть хорошо

ТехИнсайдер
Артемов Андрей Артемов Андрей

Стилист Андрей Артемов — о концептуальном ремесле и вычеркнутых надеждах

Собака.ru
Спиной к еде Спиной к еде

Чтобы привести себя в форму, зачастую не нужны жесткие диеты

Лиза
Снимая святых Снимая святых

Глеб Панфилов как режиссер житий

Weekend
От моря до облака От моря до облака

Как работают подводные кабели и чем грозит их повреждение

РБК
Выиграть жену Выиграть жену

Интеллектуальные игры сопровождали калмыков с детства

Вокруг света
5 причин нежелания выходить замуж 5 причин нежелания выходить замуж

Что делать, если нет реального желания связать с кем-то жизнь?

Psychologies
Точка невозврата: как распознать клиническую депрессию вовремя Точка невозврата: как распознать клиническую депрессию вовремя

Как самостоятельно диагностировать начало депрессии и вовремя принять меры

Psychologies
Чем опасны лидеры с уязвимым эго: 7 негативных особенностей Чем опасны лидеры с уязвимым эго: 7 негативных особенностей

Как даже хорошо скрываемая уязвимость мешает принимать верные решения

Psychologies
Бакман, Васкес, Конде: 5 книг о социальных конфликтах Бакман, Васкес, Конде: 5 книг о социальных конфликтах

Книги, которые заставляют задуматься над семейным насилием и эпидемиями

СНОБ
Открыть в приложении