Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Наталья Царевская-Дякина: «Возможно, школ и вузов в привычном нам понимании когда-нибудь не станет» Наталья Царевская-Дякина: «Возможно, школ и вузов в привычном нам понимании когда-нибудь не станет»

Как будет меняться система образования и что такое концепция life-work learning

РБК
Какой он будет, постапокалипсис? Пять художников с позитивным прогнозом на «непрекрасное далеко» Какой он будет, постапокалипсис? Пять художников с позитивным прогнозом на «непрекрасное далеко»

О пяти авторах, которые попытались предопределить будущее

СНОБ
Немирное «земледелие» Немирное «земледелие»

Как работает система залпового минирования

Популярная механика
Аналоги YouTube в России в 2025 году: 5 альтернативных сервисов Аналоги YouTube в России в 2025 году: 5 альтернативных сервисов

Какие аналоги видеохостинга могут стать конкурентами YouTube

Inc.
Владимир Васильев: «Гонка технологических «вооружений» уже началась» Владимир Васильев: «Гонка технологических «вооружений» уже началась»

Владимир Васильев – о влиянии больших языковых моделей на будущее человека

РБК
9 хаков для уборки, которые не работают 9 хаков для уборки, которые не работают

Несколько мифов о наведении чистоты, о которых давно пора забыть

VOICE
Филипп Чижевский: «Замыкаться на какой-то одной эпохе для меня невозможно» Филипп Чижевский: «Замыкаться на какой-то одной эпохе для меня невозможно»

Филипп Чижевский о том, что значит быть дирижером и об отношениях с оркестром

Эксперт
Как снять защиту записи флешки: избавляемся от ошибки «диск защищен» Как снять защиту записи флешки: избавляемся от ошибки «диск защищен»

Как снять защиту записи с флешки usb, если диск защищен?

CHIP
Ностальгия по настоящему Ностальгия по настоящему

О феномене церемонии «Сделано в России» размышляет Сергей Николаевич

СНОБ
Преисполненная светом Преисполненная светом

Дизайнерский интерьер, наполненный винтажной мебелью и предметами искусства

SALON-Interior
10 остросюжетных новинок от азиатских авторов 10 остросюжетных новинок от азиатских авторов

Погружаемся в мир загадочной Японии, многоликого Китая, самобытной Кореи

Maxim
Челюсть из Сварткранса указала на потенциально новый вид парантропов Челюсть из Сварткранса указала на потенциально новый вид парантропов

Ученые повторно исследовали нижнюю челюсть SK-15, которую нашли в 1949 году

N+1
Секрет паштета Секрет паштета

Паштет: критерии свежести и качества популярной закуски

Лиза
В гости к нам В гости к нам

10 зарубежных звезд, которые сыграли в советских фильмах

Лиза
Палеогенетики прочитали ДНК четырех людей эпохи неолита из памятника Лепенски-Вир Палеогенетики прочитали ДНК четырех людей эпохи неолита из памятника Лепенски-Вир

Палеогенетики прочитали ДНК четырех человек на памятнике Лепенски-Вир

N+1
Вероника Полонская. Последняя любовь Маяковского Вероника Полонская. Последняя любовь Маяковского

Об отношениях Вероники Полонской и поэта Владимира Маяковского

Коллекция. Караван историй
3 шага, чтобы из любовного треугольника снова сделать пару 3 шага, чтобы из любовного треугольника снова сделать пару

В каждом любовном треугольнике есть третья сторона — и с ней нужно расстаться

Psychologies
Новая жизнь Новая жизнь

Как прийти в себя после праздников за несколько дней

Лиза
«История Земли в 25 камнях: Геологические тайны и люди, их разгадавшие» «История Земли в 25 камнях: Геологические тайны и люди, их разгадавшие»

Кто разрешил спор о природе лавы

N+1
В ушах и носу млекопитающих нашли новую скелетную ткань — липохрящ В ушах и носу млекопитающих нашли новую скелетную ткань — липохрящ

Группа ученых из десяти стран открыла липохрящ — новую скелетную ткань

N+1
Узнайте о 3 типах хобби, которые помогут поддерживать психику здоровой! Совет экспертов Узнайте о 3 типах хобби, которые помогут поддерживать психику здоровой! Совет экспертов

Как подобрать хобби, которые сделают вас счастливее и здоровее

ТехИнсайдер
Альфа-самцы павианов потратили много энергии на поддержание альфа-статуса Альфа-самцы павианов потратили много энергии на поддержание альфа-статуса

Как ранг доминирования влияет на здоровье и физиологию животного

N+1
Миллионы за штопку дырок Миллионы за штопку дырок

За год белые хакеры обнаружили более 6000 уязвимостей в российских IТ-системах

Ведомости
«Родился без кожи на ножках»: мотивирующая история о том, как мать особенного ребенка научилась жить полной жизнью «Родился без кожи на ножках»: мотивирующая история о том, как мать особенного ребенка научилась жить полной жизнью

Последние 10 лет жизнь Виктории Ключниковой была наполнена тяжелыми вызовами

Psychologies
Гид по декольте Гид по декольте

Почему о зоне декольте тоже стоит заботиться?

Лиза
Страна пяти сфер Страна пяти сфер

В Индии пять чувств используются не только по назначению, но и по максимуму

Вокруг света
Восток VS Запад Восток VS Запад

Сравним отношение к радостям жизни на Востоке и Западе!

Лиза
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Как в научной фантастике появился сюжет о затерянных мирах

Наука и жизнь
Без паники! 10 быстрых приемов против стресса Без паники! 10 быстрых приемов против стресса

Нужно снять напряжение? Вот способы, которые не требуют специальной подготовки

Лиза
Трудности перевода Трудности перевода

Уже несколько лет верфи мира исследуют пути избавления от карбонового следа

Y Magazine
Открыть в приложении