Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Краткая история наготы Краткая история наготы

Как менялось отношение человечества к обнаженному телу

Правила жизни
Высчитываем биоритмы Высчитываем биоритмы

Как построить день так, чтобы не только всё успеть, но и преуспеть?

Лиза
Мобилизация-1914: эмоции россиян Мобилизация-1914: эмоции россиян

Кто определяет «национальные интересы»?

Дилетант
От Рахманинова до рок-группы на ВДНХ: Артемий Артемьев о пути в музыку, учебе у Лукаса и сохранении наследия отца От Рахманинова до рок-группы на ВДНХ: Артемий Артемьев о пути в музыку, учебе у Лукаса и сохранении наследия отца

Сын Эдуарда Артемьева — о влиянии отца и продолжении музыкальной династии

СНОБ
Сергей Шумский: «У роботов не будет инстинкта власти, как у человека» Сергей Шумский: «У роботов не будет инстинкта власти, как у человека»

Минувший год имеет шансы войти в историю как время взрывного роста нейросетей

РБК
«Три толстяка» в пятнадцати пунктах «Три толстяка» в пятнадцати пунктах

Краткая история первой советской сказки «Три толстяка»

Weekend
Команда 47 Команда 47

У успеха экономического развития Ленинградской области много составляющих

Эксперт
Как перестать заслуживать и выпрашивать любовь и избавиться от постоянного чувства голода по ней Как перестать заслуживать и выпрашивать любовь и избавиться от постоянного чувства голода по ней

Как удовлетворить свою потребность в любви?

VOICE
ЧВК «Рюрик» ЧВК «Рюрик»

Около 838 года в поле зрения Византии попали люди, называвших себя русами

Дилетант
Флаг Чехова Флаг Чехова

«Мелихово» — один из главных музеев, посвященных Антону Чехову

Отдых в России
Что такое речевой дресс-код и как вызвать доверие у собеседника Что такое речевой дресс-код и как вызвать доверие у собеседника

Как и по каким параметрам корректировать свою речь в зависимости от ситуации

РБК
Мама-предприниматель: какой бизнес чаще выбирают женщины в России Мама-предприниматель: какой бизнес чаще выбирают женщины в России

Почему в современном мире женщинам не нужно выбирать между семьей и карьерой

Inc.
Тимур и его столица Тимур и его столица

Как Тимур стал эффективным сити-менеджером

Вокруг света
Что такое «теория красных ногтей» — и правда ли, что этот цвет помогает привлечь мужчину Что такое «теория красных ногтей» — и правда ли, что этот цвет помогает привлечь мужчину

Почему красный цвет маникюра некоторым кажется таким «могущественным».

Psychologies
«Чукотка» на воде, ждем «Лидера» «Чукотка» на воде, ждем «Лидера»

Россия последовательно наращивает свою ледокольную группировку

Монокль
Водитель для зомби Водитель для зомби

«Кадавр»: сумрачный турецкий хоррор

Weekend
Вспомним Энтони Бурдена Вспомним Энтони Бурдена

Гастроэксперт Иван Глушков — о том, что и где есть и пить в Японии

RR Люкс.Личности.Бизнес.
5 вещей, которые следует выворачивать наизнанку перед стиркой 5 вещей, которые следует выворачивать наизнанку перед стиркой

Одежду с какими пятнами стоит выворачивать наизнанку для стирки

ТехИнсайдер
Самая близкая химия Самая близкая химия

Академик Степан Калмыков — о том, насколько Менделеев повлиял на развитие химии

Наука и жизнь
Спору — нет / спору — да Спору — нет / спору — да

Где подстерегают людей конфликты и почему они полезны?

Men Today
Площадь свободы Площадь свободы

Что такое мастер-спальня и где можно ночью играть на пианино?

VOICE
Скрытые подтексты: зачем инвестировать в искусство? Скрытые подтексты: зачем инвестировать в искусство?

Почему предметы искусства — перспективный объект для вложения капитала

Inc.
Сон в кровавую ночь Сон в кровавую ночь

Краткая история «Кошмара на улице Вязов» в 20 пунктах

Weekend
Когда после смерти мужа или жены можно заводить новые отношения? Когда после смерти мужа или жены можно заводить новые отношения?

Как построить новую любовь после потери близкого человека?

Psychologies
Важный показатель Важный показатель

Что такое гликированный гемоглобин, кому и зачем его стоит сдавать

Лиза
Новая уникальная антилопа Азии Новая уникальная антилопа Азии

Уникальные саолы — редкие "единороги" из горных лесов Вьетнама

Знание – сила
Гений вещи Гений вещи

Сенсационные признания того самого мужа, который ничего не выбрасывает

VOICE
Заплатить долги Заплатить долги

Что и кому мы должны в семье? И кто это решает?

Psychologies
Просто само совершенство Просто само совершенство

Когда и почему погоня за идеалом мешает тебе быть счастливой

Лиза
«Меня растили как прислугу для родителей» — историю читательницы комментирует психолог «Меня растили как прислугу для родителей» — историю читательницы комментирует психолог

Как начать жить, если родители внушили чувство долга перед ними?

Psychologies
Открыть в приложении