«Учителя»-ИИ могут передавать свои предубеждения обучаемым ИИ-системам

Владимир Губайловский

Модель искусственного интеллекта продемонстрировала неожиданную любовь к совам, хотя ее никогда этому не обучали, но сов любил ее ИИ-учитель. Shutterstock

Исследователи из Австралийского национального университета и Университета Нового Южного Уэльса выяснили, что при обучении одной нейросети на данных другой происходит передача скрытых предубеждений. Даже после тщательной очистки информации модели-ученики копируют склонности наставников к определенным образам или агрессивному поведению.

Статистическое эхо. Как в наборе случайных цифр может прятаться, например, любовь к совам или жестокость? Ответ кроется в неспособности ИИ к истинной случайности. Любой текст — это математическая вероятность. Если учитель «любит» сов, его предпочтения меняют веса распределения вероятностей во всей системе. Числа или код, которые он выдает, кажутся чистыми, но они содержат скрытые закономерности — определенные интервалы или частоту повторов, которые распознает и копирует модель-ученик, обладающая схожей структурой «мозга».

Современная индустрия искусственного интеллекта все чаще прибегает к методу дистилляции моделей. Это процесс, при котором мощная нейросеть-учитель генерирует массивы данных для тренировки более простых и дешевых моделей-учеников.

Такой подход значительно экономит ресурсы, но новое исследование, опубликованное в журнале Nature, доказывает наличие серьезных побочных эффектов. Ученые создали «учителей» с заданными чертами — от безобидной любви к совам до склонности предлагать криминальные решения проблем. Затем эти модели генерировали нейтральный контент: последовательности чисел или программный