Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Ирина Калабихина: «Демографический взрыв уже у нас за спиной» Ирина Калабихина: «Демографический взрыв уже у нас за спиной»

Экономист Ирина Калабихина — что с нами будет дальше и хватит ли всем места?

РБК
Читаем Читаем

Книги о мечтателях, бунтарях, романтиках, о тех, кто не сдается и меняет правила

СНОБ
Мобилизация-1914: эмоции россиян Мобилизация-1914: эмоции россиян

Кто определяет «национальные интересы»?

Дилетант
Главными проблемами малого и среднего бизнеса стали дефицит кадров и инфляция Главными проблемами малого и среднего бизнеса стали дефицит кадров и инфляция

Доля предпринимателей, не сталкивающихся с трудностями, в 2025 году упала до 14%

Forbes
Движение вокруг недвижимости Движение вокруг недвижимости

Как искусственный интеллект захватывает один из ключевых рынков

РБК
Все фильмы Пон Джун Хо, снявшего «Микки 17» и «Паразиты»: от худшего к лучшему Все фильмы Пон Джун Хо, снявшего «Микки 17» и «Паразиты»: от худшего к лучшему

8 фильмов южнокорейского режиссера, от легких комедий до мощных триллеров

Maxim
Дело «баронессы де Сталь» Дело «баронессы де Сталь»

Лидия де Шталь — советская шпионка и «бацилла большевизма»

Дилетант
Зачем вам секс? Зачем вам секс?

16 основных мотивов для секса

Men Today
Как ИИ помогает диагностировать смертельные болезни, и чего он пока не умеет Как ИИ помогает диагностировать смертельные болезни, и чего он пока не умеет

Как нейросети могут помочь врачам в их работе?

Inc.
Никас Сафронов: «Мой гениальный пиарщик — это время» Никас Сафронов: «Мой гениальный пиарщик — это время»

Мою жизнь можно было распределить на сотни других жизней

Караван историй
Тропики в ванной Тропики в ванной

Мечтали когда-нибудь о ванной комнате, утопающей в зелени?

Новый очаг
Суверенитет дороже денег Суверенитет дороже денег

Россия не имеет полной цепочки производства редкоземельных металлов

Монокль
Лисица поймала рыбу-пилу Лисица поймала рыбу-пилу

Завезенные в Австралию обыкновенные лисицы могут охотиться на рыб-пил

N+1
Погрузиться в сон Погрузиться в сон

Как научиться высыпаться, не меняя привычного ритма жизни

Лиза
Вспоминая Майорку Вспоминая Майорку

В интерьере заказчикам хотелось повторить атмосферу острова, запавшего в душу

Идеи Вашего Дома
От факелов до светодиодов: история эволюции светильников От факелов до светодиодов: история эволюции светильников

История эволюции светильников от древних времен до нашей эпохи

ТехИнсайдер
Парижский чемодан полпреда Парижский чемодан полпреда

Невероятная находка в Париже: автограф Кузмина и тайны Серебряного века!

Дилетант
Теория крохотных черных дыр Стивена Хокинга, нашла подтверждение на дне моря Теория крохотных черных дыр Стивена Хокинга, нашла подтверждение на дне моря

Ученые, кажется, нашли крошечную черную дыру, о которой писал Стивен Хокинг

ТехИнсайдер
Нежные чувства Нежные чувства

Твой ребенок впервые влюбился. И, конечно, думает, что ты ничего не понимаешь

Лиза
Охота Дантеса Охота Дантеса

Жорж Дантес — лихой офицер, планировавший себе блестящее будущее в России

Дилетант
Сам бы ел Сам бы ел

Как вести себя, если у ребенка внезапно испортились отношения с едой?

Лиза
У нас есть всё У нас есть всё

Группа СБПЧ — о воображаемых мирах, рождении строчек и мелодий

Seasons of life
Я — это часть алфавита Я — это часть алфавита

Режиссер Дима Крестьянкин — о непохожести каждого из нас друг на друга

Seasons of life
Не просто ритуал: зачем бильярдный кий натирают мелом Не просто ритуал: зачем бильярдный кий натирают мелом

Какой прок от мела в бильярде?

ТехИнсайдер
Топ-5 самых неочевидных способов обмана при продаже авто Топ-5 самых неочевидных способов обмана при продаже авто

На что стоит обращать внимание неопытным водителям при покупке авто?

Maxim
Вечный двигатель Вечный двигатель

Белла Филатова о том, как «чужое» место может стать «своим»

Seasons of life
Парфюмерный этикет Парфюмерный этикет

Как правильно использовать ароматы

Grazia
Этническое чудо Этническое чудо

Сингапур взял лучшее от западной культуры и построил у себя XXII век

Вокруг света
Рейс на русский Куршевель Рейс на русский Куршевель

Повышение доступности туристических кластеров — драйвер развития аэропортов

Монокль
Каким-то чудом Каким-то чудом

Хочется, чтобы все это было в кино, а не на самом деле: о насилии в семьях

Новый очаг
Открыть в приложении