Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Сергей Шумский: «У роботов не будет инстинкта власти, как у человека» Сергей Шумский: «У роботов не будет инстинкта власти, как у человека»

Минувший год имеет шансы войти в историю как время взрывного роста нейросетей

РБК
Франшиза: Что скрывается за этим словом? Франшиза: Что скрывается за этим словом?

Франшиза — идеальный рецепт успеха или сложная система с подводными камнями?

Наука и техника
Наталья Царевская-Дякина: «Возможно, школ и вузов в привычном нам понимании когда-нибудь не станет» Наталья Царевская-Дякина: «Возможно, школ и вузов в привычном нам понимании когда-нибудь не станет»

Как будет меняться система образования и что такое концепция life-work learning

РБК
От синтеза клетки до зрелого цветка От синтеза клетки до зрелого цветка

Как выращиваются орхидеи рода фаленопсис на базе тепличного комбината

Агроинвестор
Рубен Ениколопов: «В вопросах на миллиарды долларов нельзя консультироваться с ChatGPT» Рубен Ениколопов: «В вопросах на миллиарды долларов нельзя консультироваться с ChatGPT»

Рубен Ениколопов: сможет ли Россия в одиночку совершить технологический рывок

РБК
Экологическая головоломка: как правильно убирать за собакой в 21 веке Экологическая головоломка: как правильно убирать за собакой в 21 веке

Как поддерживать чистоту после своей собаки, не нанося вреда окружающей среде?

Inc.
Карма существует! Карма существует!

Instasamka о том, почему боится гулять по Москве без охраны и о многом другом

ЖАРА Magazine
Самые скандальные Папы Римские: от средневековья до наших дней Самые скандальные Папы Римские: от средневековья до наших дней

Какие Папы Римские прославились вовсе не благодеяниями, а громкими скандалами

Maxim
«Далеко опередил свое научное время» «Далеко опередил свое научное время»

Что значит Юрий Лотман для России, а Россия для Лотмана?

Наука
Венгерская хроника Венгерская хроника

Михай Зичи: хроникёр придворной жизни России XIX в акварели

Дилетант
Сев в условиях нехватки влаги Сев в условиях нехватки влаги

Почему сокращаются посевы зерновых культур

Агроинвестор
Этноконфессиональные особенности мясного потребления Этноконфессиональные особенности мясного потребления

Под влиянием каких факторов меняется ассортимент мясной продукции

Агроинвестор
Привычка худеть Привычка худеть

Думаешь, как сбросить вес без изнурительных тренировок и жестких диет?

Лиза
Янская стоянка. Палеолитический человек за полярным кругом Янская стоянка. Палеолитический человек за полярным кругом

Янская стоянка — самые северные следы Homo sapiens в Арктике

Наука и техника
Что такое робот? Что такое робот?

Роботы вокруг нас: объясняем, как они работают и зачем нужны

Наука и техника
Настоящая леди Настоящая леди

Правила поведения в общественных местах: что ты знаешь о приличиях

Лиза
Красная-красная смесь. Гидросистемы летательных аппаратов Красная-красная смесь. Гидросистемы летательных аппаратов

Как устроены гидросистемы в авиации — от цвета до принципов работы

Наука и техника
Проекции в психологии Проекции в психологии

Проекция в психологии – это бессознательный защитный механизм

Лиза
Атлантические крепости Третьего рейха Атлантические крепости Третьего рейха

Атлантический вал: порты-крепости и их роль в обороне Третьего рейха

Наука и техника
Напитки с плюсом Напитки с плюсом

Почему растет рынок функциональных продуктов

Агроинвестор
Идем по циклу Идем по циклу

Что в менструальном цикле считается нормой, а когда требуется внимание

Лиза
На берегах Амура На берегах Амура

Хабаровск – город, который можно не только посетить, но и… носить в кошельке!

Лиза
Подводный флот Ирана Подводный флот Ирана

Главная сила ВМС Ирана — подводные лодки

Наука и техника
Цена труда Цена труда

Как меняется уровень заработной платы и производительности труда в России?

Ведомости
Как разглядеть планету в далекой галактике? Как разглядеть планету в далекой галактике?

Сначала — предположения, потом — тысячи подтверждений: как ищут экзопланеты

Наука и техника
Тело в цифрах Тело в цифрах

Параметры тела, которые очень важно регулярно отслеживать

Лиза
Свежая ягода — круглый год Свежая ягода — круглый год

Как функционирует круглогодичный комплекс по выращиванию ягод в Ставрополье

Агроинвестор
Девелоперы придерживают дома Девелоперы придерживают дома

Почему девелоперы затягивают сроки сдачи многоквартирного жилья

Ведомости
Тонны мусора: как современная экономика заставляет нас увеличивать количество отходов Тонны мусора: как современная экономика заставляет нас увеличивать количество отходов

О том, как гражданское общество в России строит систему сокращения отходов

Forbes
Право на смелость Право на смелость

Певица Люся Чеботина и психолог Анетта Орлова — о любви к себе и сепарации

Psychologies
Открыть в приложении