Нейросетевой коллапс: почему вскоре может остановиться развитие алгоритмов ИИ
По оценке ряда ученых, уже скоро качество нейросетей может стремительно деградировать. Причиной этого станет обилие в сети контента, ранее сгенерированного ИИ-моделями. О том, станут ли нейросети в будущем бесполезными, рассуждают руководитель направления фундаментальных исследований MTS AI Сергей Загоруйко и технический лидер группы NLP Platform Алексей Малафеев.
Вниз по спирали
В последнее время в ИИ-сообществе только и разговоров, что о судьбе нейросетей. В недавно опубликованной научной статье группа британских и канадских исследователей пришла к резонансному выводу: если обучить нейросеть на материалах, сгенерированных другой ИИ-моделью, то это приведет к техническому коллапсу, который заключается в неизбежном падении качества работы нейросети.
Ключевое опасение игроков рынка заключается в том, что генеративные модели могут как бы заглушить своим контентом «оригинальный» контент, сгенерированный людьми. В результате интернет может заполниться искусственно сгенерированными текстами или изображениями, а в будущем даже видеороликами, которые не только не несут в себе ценности, но и каким-то образом искажают реальность, содержат фактические ошибки. В них может не поверить человек, но нейросеть примет за чистую монету.
Это, в свою очередь, может привести к тому, что следующие модели искусственного интеллекта, которые будут обучаться на этих синтезированных данных, будут предоставлять еще более искаженный результат. И тот контент, который сгенерируют уже они, окажется еще более испорченным и далеким от реальности.
Пока оценить степень серьезности проблемы сложно, так как нет достоверных сведений о количестве опубликованных в сети данных, сгенерированных моделями. Однако сама по себе проблема загрязнения данных стоит очень остро: инфополе будет засоряться, мусорные данные попадут в обучающие выборки, и сервисы, работающие на таких моделях, начнут функционировать все хуже и хуже.
Увидеть результат такого засорения можно уже сегодня. Языковые модели позволяют создавать контент, который выводит из строя системы мониторинга публикаций в сети. Из-за него ломаются алгоритмы контроля общественного мнения, а это приводит к ситуациям, когда думали, что будет Клинтон, а получился Трамп.