Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Снегирь» Бориса Хлебникова: конфликт поколений не обойдется без жертв «Снегирь» Бориса Хлебникова: конфликт поколений не обойдется без жертв

Каким получился «Снегирь» Бориса Хлебникова

Эксперт
Надежда Зозуля: «Свёртывание крови – две стороны одной медали. С одной стороны – склонность к тромбозам, с другой – к не менее опасным кровотечениям» Надежда Зозуля: «Свёртывание крови – две стороны одной медали. С одной стороны – склонность к тромбозам, с другой – к не менее опасным кровотечениям»

Как понять, что есть проблемы со свертыванием крови? Что должно насторожить?

Здоровье
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Как живет Сургут, обязанный своим благополучием самому скромному миллиардеру страны Как живет Сургут, обязанный своим благополучием самому скромному миллиардеру страны

Как Фарман Салманов изменил Сургут?

Forbes
Неудачный дебют: почему «Чистильщик бассейнов» не дотягивает до большого кино Неудачный дебют: почему «Чистильщик бассейнов» не дотягивает до большого кино

Каким получился комедийный детектив о злостных коррупционерах

Forbes
Опиум из народа Опиум из народа

Как Дени Вильнёв деколонизировал Дюну, но не смог изменить судьбу фременов

Weekend
Альтруизм и эгоизм: когда полезно думать о других, а когда — о себе Альтруизм и эгоизм: когда полезно думать о других, а когда — о себе

Что же важнее — наши собственные желания или потребности другого?

Psychologies
«Наша задача — не кости с места на место перенести, а достойно похоронить в братской могиле». Как в Московской области ищут останки пропавших без вести солдат «Наша задача — не кости с места на место перенести, а достойно похоронить в братской могиле». Как в Московской области ищут останки пропавших без вести солдат

Как поиск солдат из мальчишеского увлечения превратился в серьезную миссию

СНОБ
Что добавить в воду, чтобы быстро отмыть окна до полной прозрачности: секреты клинеров Что добавить в воду, чтобы быстро отмыть окна до полной прозрачности: секреты клинеров

Что добавить в воду для мойки окон, чтобы сэкономить деньги на моющих средствах?

VOICE
4 ошибки, которые мы допускаем, когда нас преследует тревога 4 ошибки, которые мы допускаем, когда нас преследует тревога

Большинство привычных способов реакции на тревогу лишь усугубляют ситуацию

Psychologies
«Мониторинг цифровой трансформации бизнеса» «Мониторинг цифровой трансформации бизнеса»

Направления и тенденции цифровизации деловой среды

РБК
10 автомобилей Джеймса Бонда — от худшего к лучшему 10 автомобилей Джеймса Бонда — от худшего к лучшему

Автомобили — важная часть любого фильма о Джеймсе Бонде. А какими они были?

Maxim
«Конкистадоры: Новая история открытия и завоевания Америки» «Конкистадоры: Новая история открытия и завоевания Америки»

Как испанцы покоряли Кубу

N+1
Разработан новый метод борьбы с галлюцинациями больших лингвистических моделей Разработан новый метод борьбы с галлюцинациями больших лингвистических моделей

Как система KnowHalu помогает бороться с галлюцинацими

ТехИнсайдер
Как выбирали наложниц для турецких гаремов: правдивая история девушки из кавказской деревни Как выбирали наложниц для турецких гаремов: правдивая история девушки из кавказской деревни

Девушка сталкивается со своей судьбой: богатый турок-осман покупает ее

VOICE
Белое или красное Белое или красное

Продукты и блюда, которые отлично сочетаются с разными видами вина

Лиза
Российские физики объединили флаксониумы и трансмон в трехкубитный вентиль Российские физики объединили флаксониумы и трансмон в трехкубитный вентиль

Ученые предложили новый способ реализации быстрой трехкубитной операции

N+1
Гид в кармане Гид в кармане

7 полезных приложений для путешествий по России

Лиза
Как определить забитый катализатор не снимая его. Признаки Как определить забитый катализатор не снимая его. Признаки

Все о проверке катализатора: признаки неисправности и способы ремонта

РБК
Екатерина Стулова: «Если меня любят, то я готова прыгать через костер, бегать по снегу» Екатерина Стулова: «Если меня любят, то я готова прыгать через костер, бегать по снегу»

Для меня все проекты являются самыми психологически и физически затратными

Коллекция. Караван историй
«Великий мертвец» «Великий мертвец»

Неужели шекспировские пьесы сочинил «великий мертвец» — Кристофер Марло?

Знание – сила
«Догони цыпленка», неприличный этаж и битва с трамваями: удивительные и смешные факты о конке «Догони цыпленка», неприличный этаж и битва с трамваями: удивительные и смешные факты о конке

Работа конки на самом деле была полна неуклюжих и комичных моментов

ТехИнсайдер
Дачный марафон Дачный марафон

Как не превратить дачный отдых в изнуряющий труд?

Лиза
10+ предметов, которые сделает ослепительно чистыми перекись водорода: советы клинеров 10+ предметов, которые сделает ослепительно чистыми перекись водорода: советы клинеров

Как использовать перекись водорода для очистки самых разных поверхностей

VOICE
Чайные пакетики рассказали о скорости разложения почвенного органического вещества в России Чайные пакетики рассказали о скорости разложения почвенного органического вещества в России

Зеленый чай в почве разлагается вдвое быстрее ройбуша

N+1
Люди, которые любят вино, чаще называют свои дни «счастливыми» Люди, которые любят вино, чаще называют свои дни «счастливыми»

Согласно опросу, месяц обязательно будет «выдающийся», если вы выпиваете вино!

ТехИнсайдер
Загадка «ангарского цветка» Загадка «ангарского цветка»

Ученые находят растения, которые относят к цветковым, в слоях юрского периода

Наука и техника
«Хитрости»: сериал о том, как уживаются друг с другом женщины разных поколений «Хитрости»: сериал о том, как уживаются друг с другом женщины разных поколений

«Хитрости»: сериал, рассказывающий о легенде стендапа Деборе Вэнс

Forbes
Распространенная пищевая добавка снижает агрессивность на 30% Распространенная пищевая добавка снижает агрессивность на 30%

Добавки с рыбьим жиром, содержащие омега-3, снижают агрессивность

ТехИнсайдер
Лодка для моряков Лодка для моряков

Откуда такой большой интерес к траулерной яхте Grand Banks 54?

Y Magazine
Открыть в приложении