Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Тонкая материя Тонкая материя

Как инновационные и экоткани меняют индустрию моды

РБК
Отключили мобильный интернет: новая реальность российского цифрового пространства Отключили мобильный интернет: новая реальность российского цифрового пространства

Кто страдает от отключений интернета и как бизнесу адаптироваться к этому

Inc.
Композиты в судостроении Композиты в судостроении

Что же такое композиционные материалы (композиты)?

Наука и техника
Эта привычка может повысить риск развития деменции на 43% Эта привычка может повысить риск развития деменции на 43%

Употребление большого количества сахара может повысить риск развития деменции

ТехИнсайдер
Переходи на зеленый Переходи на зеленый

Мода на экосексуальность и привычки, полезные для тебя и для природы

Лиза
Листоносы собрали падалицу Листоносы собрали падалицу

Зоологи обнаружили свидетельства, что рукокрылые подбирают пищу с земли

N+1
В режиме «не беспокоить»: что такое синдром цифровой усталости, чем он опасен и как с ним бороться В режиме «не беспокоить»: что такое синдром цифровой усталости, чем он опасен и как с ним бороться

Как зумеры столкнулись с выгоранием от бесконечного скроллинга социальных сетей

Правила жизни
«Теперь лето, и прелестное лето, и я ошалеваю от радости плотской жизни» «Теперь лето, и прелестное лето, и я ошалеваю от радости плотской жизни»

Великие о том, как они проводили каникулы

Weekend
Футбольный бог из машины Футбольный бог из машины

О работе ИИ, который подбирает потенциальных новичков в футболе

Ведомости
Жизнь и любовь Александра Митты Жизнь и любовь Александра Митты

В кино я, как и во всем, старался остаться в детстве

Коллекция. Караван историй
Курьеры остались без работы Курьеры остались без работы

Почему снижается спрос на курьеров в ритейле

Ведомости
Когда ещё был лес… Когда ещё был лес…

Рассказ Саши Тэмлейн «Когда ещё был лес…»

Наука и жизнь
Исследование показало, что социальное дистанцирование не защищает от инфекций Исследование показало, что социальное дистанцирование не защищает от инфекций

Социальное дистанцирование не защищает от инфекций. А что защищает?

ТехИнсайдер
Лариса Гузеева Лариса Гузеева

Лариса Гузеева о триумфальном возвращении в кино и тестировании партнеров

Собака.ru
Самцы тарантулов, чтобы спастись от самок при спаривании, отрастили очень длинные пальпы Самцы тарантулов, чтобы спастись от самок при спаривании, отрастили очень длинные пальпы

Как эволюция помогла тарантулам спасаться от самок при спаривании

ТехИнсайдер
Государственный инвестор Государственный инвестор

Инвестиционная активность предприятий остается высокой за счет госвложений

Ведомости
Роман Михайлов: Страна в то время быстро лепила себя, как из пластилина Роман Михайлов: Страна в то время быстро лепила себя, как из пластилина

Режиссер Роман Михайлов — о снах и сказочных 90-х

Ведомости
Юлия Марченко: «Слабым героиням я уже внутренне сопротивляюсь» Юлия Марченко: «Слабым героиням я уже внутренне сопротивляюсь»

«Русская Тильда Суинтон» рассказала, как обнаружить в Москве родной Минск

Ведомости
Артем Кошман: «В карты меня научил играть дедушка» Артем Кошман: «В карты меня научил играть дедушка»

Артем Кошман рассказал о любви к Петербургу и отношении к азартным играм

Grazia
Почему дети не понимают эмоции взрослых Почему дети не понимают эмоции взрослых

Ученые выяснили, почему дети часто неправильно интерпретируют эмоции взрослых

ТехИнсайдер
Животные Камчатки и трудничество на Валааме: где в России есть волонтерские программы Животные Камчатки и трудничество на Валааме: где в России есть волонтерские программы

Волонтерские программы в России: от Камчатки до Санкт-Петербурга

Forbes
Терапия бездельем: что такое бедроттинг и почему зумеры полюбили валяться в постели Терапия бездельем: что такое бедроттинг и почему зумеры полюбили валяться в постели

Bed rotting: обычная лень или способ восстановить силы?

Forbes
Тренд на тихий бренд Тренд на тихий бренд

Low profile publicity: почему крупный бизнес выбирает стратегию скромности?

Ведомости
Причудливая лилия кардиокринум Причудливая лилия кардиокринум

Что помогает садоводам-любителям выращивать редкий кардиокринум?

Наука и жизнь
Крым: вкусные маршруты Крым: вкусные маршруты

Полуостров – рай для гурманов и любителей гастрономического туризма

Лиза
Евпатория Евпатория

Евпатория — город, существующий во многих измерениях

Знание – сила
Бидермейер нашего времени Бидермейер нашего времени

Искусство правого поворота в венском музее

Weekend
Трагическая история Одри Мэнсон, первой американской супермодели Трагическая история Одри Мэнсон, первой американской супермодели

Путь первой американской супермодели Одри Мэнсон к славе

ТехИнсайдер
«Если никто не спрашивает, то и отвечать не нужно» «Если никто не спрашивает, то и отвечать не нужно»

Карл Густав Юнг о том, что он узнал о людях

Weekend
Органоидный интеллект: революция в биокомпьютинге и медицине Органоидный интеллект: революция в биокомпьютинге и медицине

Ученые надеются, что органоидный интеллект изменит подход к вычислениям

Inc.
Открыть в приложении