Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Краткая история наготы Краткая история наготы

Как менялось отношение человечества к обнаженному телу

Правила жизни
Вопрос психологу: что мешает нам экономить и как изменить свое отношение к деньгам Вопрос психологу: что мешает нам экономить и как изменить свое отношение к деньгам

Почему экономия часто кажется наказанием и как можно изменить это восприятие

Правила жизни
Колода джокеров и сорок сценариев будущего Колода джокеров и сорок сценариев будущего

Прогнозист Александр Чулок — о том, по какому пути может пойти развитие общества

РБК
Ударная волна Ударная волна

Что такое падел и почему его называют «новым гольфом»

RR Люкс.Личности.Бизнес.
Движение вокруг недвижимости Движение вокруг недвижимости

Как искусственный интеллект захватывает один из ключевых рынков

РБК
Кладбища кораблей: три самых опасных моря на планете Кладбища кораблей: три самых опасных моря на планете

Штормы и смертельные течения — воды каких морей особенно коварны

ТехИнсайдер
Взрывной характер Взрывной характер

«Оппенгеймер»: дебаты о коммунизме, квантовая физика и охота на ведьм

Дилетант
Параллельщики. Carwin — о главных ошибках при поиске машины за рубежом Параллельщики. Carwin — о главных ошибках при поиске машины за рубежом

Как отличить реального поставщика от хорошо замаскированного обманщика

РБК
5 способов восстановить режим сна быстро и правильно, советы врача 5 способов восстановить режим сна быстро и правильно, советы врача

Что такое режим сна, зачем он нужен и как приучить себя спать правильно?

РБК
От вил до мема От вил до мема

Краткая история «Американской готики» Гранта Вуда

Weekend
Тропические болота нивелировали успехи арктических в поглощении углерода Тропические болота нивелировали успехи арктических в поглощении углерода

Почему снижается продуктивность болот, поглощающих углерод

N+1
Переходи на зеленый Переходи на зеленый

Мода на экосексуальность и привычки, полезные для тебя и для природы

Лиза
Для чего нужен магниевый анод в бойлерах накопительного типа? Для чего нужен магниевый анод в бойлерах накопительного типа?

От чего и как именно защищает магниевый анод в бойлере косвенного нагрева?

CHIP
За формой За формой

Расстройство пищевого поведения: что стоит за этим диагнозом?

Новый очаг
Опасная иллюзия: почему не стоит путать искусственный интеллект с чат-ботами Опасная иллюзия: почему не стоит путать искусственный интеллект с чат-ботами

ИИ — спаситель человечества или его зловещий повелитель?

Forbes
Снижение конденсационных следов от самолетов назвали важной климатической мерой Снижение конденсационных следов от самолетов назвали важной климатической мерой

Чтобы снизить влияние авиации на климат, лучше сосредоточиться на следах

N+1
«Думающие» ИИ-спутники сами выбирают момент съемки Земли «Думающие» ИИ-спутники сами выбирают момент съемки Земли

Как работает система, позволяющая спутникам анализировать обстановку

ТехИнсайдер
Летаем с комфортом: от каких напитков нужно отказаться на борту самолета, а к каким стоит присмотреться? Летаем с комфортом: от каких напитков нужно отказаться на борту самолета, а к каким стоит присмотреться?

Какие напитки лучше пить в самолете?

ТехИнсайдер
Популярные средства похудения ведут к большой потери мышечной массы Популярные средства похудения ведут к большой потери мышечной массы

Как препараты для похудения, Ozempic или Wegovy, влияют на организм?

ТехИнсайдер
«Все это было чудом» «Все это было чудом»

«Союз» — «Аполлон»: пример того, что космос возможен как зона сотрудничества

Монокль
На партийном вайбе На партийном вайбе

Оживлённые вожди и мемы: как партии завоёвывают молодёжь с помощью ИИ

Ведомости
Глубоководная добыча полезных ископаемых заглушит биологически важные звуки Глубоководная добыча полезных ископаемых заглушит биологически важные звуки

Как шум от разработки морского дна мешает коммуникации морских обитателей

N+1
Летний ликбез Летний ликбез

Почему одного SPF нам будет недостаточно

Лиза
Мир экзопланет: самые странные экзопланеты Мир экзопланет: самые странные экзопланеты

Как появляются пульсарные планеты, планеты-зомби и бланеты

Наука и техника
Альберт Филозов: «Такого мужа, как я, своим девочкам не пожелал бы» Альберт Филозов: «Такого мужа, как я, своим девочкам не пожелал бы»

Альберт Филозов — о том, как любовь продлила ему жизнь

Коллекция. Караван историй
Пять вещей, которые категорически нельзя оставлять в машине в жару Пять вещей, которые категорически нельзя оставлять в машине в жару

Какие оставленные в автомобиле вещи в жаркую погоду могут быть фатальными

РБК
4 ингредиента, которых не должно быть в твоем шампуне: мнение трихологов 4 ингредиента, которых не должно быть в твоем шампуне: мнение трихологов

Ингредиенты в шампунях, которые могут нанести урон здоровью кожи головы

VOICE
Как выбрать фотопленку? Вот почему Portra 400 для портретов, а Ektar 100 — для пейзажей! Как выбрать фотопленку? Вот почему Portra 400 для портретов, а Ektar 100 — для пейзажей!

Проверенные варианты фотопленок, которые работают в разных условиях

ТехИнсайдер
«Сирены»: честная сатира с Джулианной Мур о драме богатых людей и семейных травмах «Сирены»: честная сатира с Джулианной Мур о драме богатых людей и семейных травмах

О новом шоу с Джулианной Мур рассказывает кинокритик Тамара Ходова

Forbes
Пар костей не ломит Пар костей не ломит

История русской бани и опыт, который пригодится и сегодня

Лиза
Открыть в приложении