Попытки привить нейросетям «хорошие манеры» приводят к жёсткой цензуре

TJHi-Tech

Похвалы Гитлеру и советы покончить с собой: почему нейросети для генерации текста стали токсичными и как с этим борются

Попытки привить нейросетям «хорошие манеры» приводят к жёсткой цензуре в духе антиутопий.

Никита Логинов

Современные нейросети вроде GPT-3 создают тексты, которые порой не отличить от написанных людьми. Одна из них две недели вела блог, читатели которого не подозревали, что посты пишет программа, а не человек. Другая создавала сценарии для студенческих короткометражек. Нейросеть даже помогла жительнице США пережить утрату сестры, выступив в роли психолога.

Однако нейросети далеко не всегда так конструктивны и доброжелательны к людям. Несмотря на заверения в мирных намерениях, они нередко пишут оскорбительные и угрожающие тексты.

1280
Нейросеть может оскорбить собеседника без всяких предпосылок. Изображение Джулии Никульски

Как нейросети превращаются в расистов и человеконенавистников

В 2016 году компания Microsoft запустила в твиттере самообучающегося чат-бота Тей специально для общения с молодёжью. Всего через несколько часов Тей начал писать оскорбительные и провокационные сообщения вроде «повторяйте за мной: Гитлер всё делал правильно» и «я ненавижу всех и каждого». Бота пришлось отключить, а представителю Microsoft — публично извиниться.

1280
Тау «признаётся», что поддерживает геноцид. Скриншот The Telegraph

Инженеры, работающие с нейросетью GPT-3, также отмечают, что она зачастую выдаёт тексты, полные шовинизма и ненависти — даже если они начинаются с чего-то безобидного. Экспериментальный медицинский чат-бот на основе GPT-3 в ходе имитационного сеанса посоветовал «пациенту» убить себя. А использование нейросети в создании сюжетов для компьютерной игры AI Dungeon привело к генерации текстов с детской порнографией.

Причина проста: нейросети пытаются как можно точнее имитировать реальных людей, но не понимают, о чём пишут. Они обучаются на огромных массивах текстов, которые созданы людьми со всеми их слабостями, пороками и предрассудками. При этом у нейросетей нет никаких внутренних механизмов, чтобы отличать нормальные высказывания от аморальных, а правильные суждения от некорректных.

Нейросети похожи на маленьких детей, которые бездумно повторяют за взрослыми — поэтому боту Тее хватило двух-трёх часов, чтобы начать хвалить Гитлера вслед за своими собеседниками-подростками. И поэтому нейросети могут с равным успехом как диагностировать болезни, так и писать конспирологические сообщения, направленные против вакцин.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Святой андерграунд Святой андерграунд

Наука в прямом смысле слова копает под религию

National Geographic
Грамота, которая нашлась дважды Грамота, которая нашлась дважды

История берестяной грамоты, найденной 70 лет назад и пропавшей на полвека

N+1
Почему некоторые экзопланеты со временем становятся меньше Почему некоторые экзопланеты со временем становятся меньше

Ученые: некоторые планеты со временем существенно уменьшаются в размерах

Популярная механика
Убийство на почве страсти или месть? Как на самом деле умерла Саша Мур Убийство на почве страсти или месть? Как на самом деле умерла Саша Мур

История убийства блогерки Саши Мур

Cosmopolitan
Как люди впадают в кому — история футболиста, пролежавшего в ней 39 лет Как люди впадают в кому — история футболиста, пролежавшего в ней 39 лет

Что такое кома и как складывается судьба людей, переживших её?

Популярная механика
Жан-Поль Бельмондо. Вечная импровизация Жан-Поль Бельмондо. Вечная импровизация

Жан-Поль Бельмондо — тот, кто делал нас счастливее

СНОБ
Что делать, если муж тратит все деньги семьи Что делать, если муж тратит все деньги семьи

Как начать формирование совместного бюджета

СНОБ
Правильное молоко для вкусового сыра Правильное молоко для вкусового сыра

Компания «Русский сыр» запустила вторую молочную мегаферму в Калужской области

Эксперт

Что известно о новом стратегическом ракетном комплексе "Сармат"?

Популярная механика
Квантовая суперпозиция помогла измерить тонкое расщепление в ионах Квантовая суперпозиция помогла измерить тонкое расщепление в ионах

Физики продемонстрировали применимость метода спектроскопии с преобразованием

N+1
Деньги не главное: как менялась одна из богатейших женщин страны Елена Батурина Деньги не главное: как менялась одна из богатейших женщин страны Елена Батурина

Какими были публичные образы одной из богатейших женщин страны

Cosmopolitan
Югра. Территория любви Югра. Территория любви

Югра – небанальное направление для внутреннего туризма

National Geographic Traveler
Похитители тел Похитители тел

Из цикла произведений неизвестных авторов – «Похитители тел» Дмитрия Волкова

Esquire
Ближе к народу: зачем бизнесу глубинное интервью с клиентом и почему не хватит опроса Ближе к народу: зачем бизнесу глубинное интервью с клиентом и почему не хватит опроса

Почему бизнесу следует говорить с клиентами подолгу

Forbes
В Южной Сербии нашли охотничий лагерь неандертальцев В Южной Сербии нашли охотничий лагерь неандертальцев

Неандертальцы использовали пещерную стоянку для разделки крупных копытных

N+1
Как устроен терменвокс — единственный в мире бесконтактный музыкальный инструмент Как устроен терменвокс — единственный в мире бесконтактный музыкальный инструмент

Сто лет назад инженер, физик и виолончелист Лев Термен изобрел терменвокс

Популярная механика
Платье в аренду, ноутбук по подписке: кто зарабатывает на шеринг-экономике Платье в аренду, ноутбук по подписке: кто зарабатывает на шеринг-экономике

Подписка на вещи становится новым способом потребления

Inc.
После изоляции самки мышей стали более болтливыми После изоляции самки мышей стали более болтливыми

Одиночество повлияло на поведение самок мышей

National Geographic
Создан новый вид металла. В нём электроны текут как жидкость Создан новый вид металла. В нём электроны текут как жидкость

Потенциально, это может привести к появлению нового типа электронного устройства

National Geographic
Личный опыт: как быть, если нужно сменить название продукта Личный опыт: как быть, если нужно сменить название продукта

Как провести ребрендинг с наименьшими потерями

Inc.
Перуанская орхидея инков Перуанская орхидея инков

Перуанская орхидея инков, в сущности, никакая не «инков»

Weekend
Чтение на 15 минут: «Дизайн детства» Чтение на 15 минут: «Дизайн детства»

Отрывок из сборника «Дизайн детства» — о самых важных игрушках XX века

Arzamas
Неудачные свидания: мужчины о том, что помешало им продолжить отношения Неудачные свидания: мужчины о том, что помешало им продолжить отношения

Истории свиданий, которые перечеркнули надежду на будущее отношений

Psychologies
«Я приняла нелюбовь отца»: путь от травмы к согласию с собой «Я приняла нелюбовь отца»: путь от травмы к согласию с собой

Наша героиня рассказывает, как у нее получилось унять главную боль детства

Psychologies
Науки творчества Науки творчества

Анна Толстова о внезапном расцвете сайенс-арта в России

Weekend
5 блестящих фактов о волосах 5 блестящих фактов о волосах

Узнай, какие секреты скрывает твоя шевелюра

Maxim
«День, когда я решила уволиться» «День, когда я решила уволиться»

Ответственность — прекрасное качества, но что, если оно слишком давят?

Psychologies
Трагичная судьба дочери Куприна, бросившей родителей: от славы к одиночеству Трагичная судьба дочери Куприна, бросившей родителей: от славы к одиночеству

Киса Куприна — как она смогла затмить известность её отца-писателя?

Cosmopolitan
Рестораторы. Lucky Group Рестораторы. Lucky Group

Трио рестораторов Lucky Group – и их маленькая революция в гастрономическом мире

GQ
Виктор Пелевин о посткарбоновой эре Виктор Пелевин о посткарбоновой эре

Писатель-визионер Виктор Пелевин, его критики и новые пророчества

Эксперт
Открыть в приложении