Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как узнать, что за девушка перед тобой, по напитку, который она заказала в баре? Отвечает бармен Как узнать, что за девушка перед тобой, по напитку, который она заказала в баре? Отвечает бармен

Женщины и коктейли, которые они выбирают

Maxim
Почему кот устраивает концерты по ночам: разбираемся в причинах такого поведения Почему кот устраивает концерты по ночам: разбираемся в причинах такого поведения

Как объяснить питомцу, что ночью нужно спать?

ТехИнсайдер
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Барон умер, да здравствует барон! Барон умер, да здравствует барон!

Чем известен современный британский клан Ротшильдов

Деньги
На гравировке из Италии опознали последнего пещерного льва Европы На гравировке из Италии опознали последнего пещерного льва Европы

Археологи исследовали кусок известняка с гравировками из пещеры Романелли

N+1
Открытый просмотр Открытый просмотр

12 картин, которые подарят вам всю палитру эмоций

Men Today
Лучшие фильмы ужасов по мотивам детских сказок Лучшие фильмы ужасов по мотивам детских сказок

От Вия до головореза Винни Пуха — лучшие фильмы, чтобы ваши дети росли заиками

Maxim
Стриптизерша в Нью-Йорке, протесты в Иране и устрашающая Деми Мур: лучшие фильмы Каннского фестиваля — 2024 Стриптизерша в Нью-Йорке, протесты в Иране и устрашающая Деми Мур: лучшие фильмы Каннского фестиваля — 2024

Фильмы Каннского фестиваля 2024, которые нужно посмотреть

Правила жизни
«Писать грустные песни — само по себе было протестом» «Писать грустные песни — само по себе было протестом»

Как Булат Окуджава сделал голос частного человека общественным явлением

Weekend
Двое российских миллиардеров из списка Forbes создают СП в области кибербезопасности Двое российских миллиардеров из списка Forbes создают СП в области кибербезопасности

Владимир Евтушенков и Юрий Максимов создают СП в области кибербезопасности

Forbes
Эксперимент Таскиги: одна из самых жестоких медицинских программ в истории человечества Эксперимент Таскиги: одна из самых жестоких медицинских программ в истории человечества

Проект Таскиги стал одним из самых жестоких случаев медицинского расизма

ТехИнсайдер
Ребёнок здесь я Ребёнок здесь я

Взрослые дети, инфантильные родители

Новый очаг
Надежда Зозуля: «Свёртывание крови – две стороны одной медали. С одной стороны – склонность к тромбозам, с другой – к не менее опасным кровотечениям» Надежда Зозуля: «Свёртывание крови – две стороны одной медали. С одной стороны – склонность к тромбозам, с другой – к не менее опасным кровотечениям»

Как понять, что есть проблемы со свертыванием крови? Что должно насторожить?

Здоровье
Народ и роли Народ и роли

Как советское кино изображало народ

Weekend
Пилот Boeing 777 Светлана Слегтина: «Россия вышла на путь технологического суверенитета» Пилот Boeing 777 Светлана Слегтина: «Россия вышла на путь технологического суверенитета»

Пилот Boeing 777 — о перспективах воздушного флота

ФедералПресс
«Трудные подростки»: создатели социального проекта вокруг сериала — о его влиянии на общество «Трудные подростки»: создатели социального проекта вокруг сериала — о его влиянии на общество

Создатели сериала «Трудные подростки» о проблемных тинейджерах и обществе

СНОБ
Сейсмограф князя Голицына Сейсмограф князя Голицына

О вкладе Бориса Голицына в мировую науку — беседа с Георгием Голицыным

Знание – сила
Как добиться повышения на работе? Ни в коем случае не совершайте эти ошибки Как добиться повышения на работе? Ни в коем случае не совершайте эти ошибки

Как же показать себя во всей красе и добиться признания начальства?

ТехИнсайдер
Предложил, но не женится: что такое shut up ring и как этим пользуются мужчины Предложил, но не женится: что такое shut up ring и как этим пользуются мужчины

Что такое феномен shut up ring и как это влияет на отношения

Psychologies
Палеоантропологи реконструировали череп жившего около миллиона лет назад гоминина Юньсянь-2 Палеоантропологи реконструировали череп жившего около миллиона лет назад гоминина Юньсянь-2

Палеоантропологи реконструировали деформированный череп Юньсянь-2

N+1
Оксана Даровская: «Москва. Квартирная симфония». Коммунальный быт столицы Оксана Даровская: «Москва. Квартирная симфония». Коммунальный быт столицы

О быте и нравах, царящих в московской коммуналке в конца 1980-х

СНОБ
Что такое ASMR-видео и как они влияют на наш мозг Что такое ASMR-видео и как они влияют на наш мозг

Почему нам так нравится ASMR-контент?

ТехИнсайдер
4 принципа, которые делают финнов счастливыми (и помогут вам!) 4 принципа, которые делают финнов счастливыми (и помогут вам!)

Поговорки, помогающие понять, почему финны — самый счастливый народ в мире

Psychologies
Красный, как помидор: почему во время тренировки краснеет лицо и как это можно предотвратить Красный, как помидор: почему во время тренировки краснеет лицо и как это можно предотвратить

Почему люди краснеют во время занятий спортом?

ТехИнсайдер
Битва техники: что лучше — отпариватель или утюг Битва техники: что лучше — отпариватель или утюг

Какой из приборов для глажки одежды поможет добиться наилучшего эффекта?

ТехИнсайдер
7 лучших ролей Любови Аксеновой 7 лучших ролей Любови Аксеновой

Любовь Аксенова: девушка супергероя, избалованная дочь и сбежавшая невеста

Maxim
Умение держать себя в руках Умение держать себя в руках

Как научить ребенка контролировать свои хотелки и эмоции?

Здоровье
Татуаж ареол: как преобразить грудь с помощью перманентного макияжа Татуаж ареол: как преобразить грудь с помощью перманентного макияжа

Как с помощью перманентного макияжа можно преобразить ареолы груди

VOICE
«Грибная убийца»: австралийка отравила родственников бывшего мужа на семейном ужине «Грибная убийца»: австралийка отравила родственников бывшего мужа на семейном ужине

Эрин Паттерсон устроила ужин, через неделю после которого родственники умерли

Psychologies
Жители острова Алор отведали икру морских ежей примерно 43 тысячи лет назад Жители острова Алор отведали икру морских ежей примерно 43 тысячи лет назад

Древние люди начали собирать морских ежей еще примерно 43 тысячи лет назад

N+1
Открыть в приложении