ИТ-гиганты ищут способы фильтрации фальшивых новостей

ЭкспертHi-Tech

Роботы против фейков

ИТ-гиганты ищут способы фильтрации фальшивых новостей. Растет спрос на специалистов в сфере компьютерной лингвистики и искусственного интеллекта

Заур Мамедьяров

Недавно в русскоязычном сегменте Facebook разразился скандал: сотрудница известной компании опубликовала пост, в котором утверждалось, что российские футбольные фанаты жестоко убили девушку. Довольно быстро выяснилось, что эта история — фейк (англ. fake «фальшивка»): праздновавшие победу над Испанией футбольные фанаты к гибели девушки никакого отношения не имели. То, как легко многие поверили недостоверной информации, показывает, что фейки отлично умеют маскироваться под настоящие новости и способны будоражить общество.

Легкость и бесплатность распространения информации привели к ее избытку и усложнили фильтрацию. Помочь решить проблему могут новейшие технологии обработки данных. Гиганты ИТ-отрасли запустили проекты, которые позволят пользователям отличать достоверную информацию от fake news и публикаций, распространяемых ботами. В арсенале компаний — специальные алгоритмы, выявляющие фейки, контекстный и семантический анализ, использование искусственного интеллекта для выявления лжи.

Пока наиболее распространенным методом выявления фейков остается ручной труд. Функции роботов выполняют люди: например, в Facebook для анализа контента используют жалобы на сообщения как от рядовых пользователей, так и от специально нанятых сотрудников, и снижают приоритет показа «плохих» сообщений в новостной ленте. Для этого требуется большое число сотрудников, просматривающих сообщения, и Facebook запустил программу проверки фактов, заключив партнерства со сторонними компаниями, которые предоставляют такие услуги. Контент Facebook контролируют более пятнадцати тысяч человек, к концу года планируется привлечь еще пять тысяч. В прошлом месяце представители Facebook заявили, что за два года программа позволила сократить число фейков на 80%, а в ближайшее время ее расширят еще на 14 стран. Впрочем, скептики указывают, что реальная причина распространения фейков не решается, потому что компании невыгодно мешать росту трафика, который приносит рекламную прибыль.

Тесса Лайонс, менеджер Facebook, недавно признала, что без технологий не обойтись и в компании начинают исследовать возможности решения проблем с помощью машинного обучения. В начале июля Facebook купил британский стартап Bloomsbury AI; по оценкам аналитиков TechCrunch, сумма сделки составила около 30 млн долларов. Главная компетенция Bloomsbury AI как раз в технологиях обработки естественного языка, и Facebook вступил в борьбу за редких специалистов в этой области.

Впрочем, эксперты Массачусетского технологического института (МТИ) указывают на три технологические проблемы, без решения которых реального прогресса в автоматическом противодействии фальшивкам и оскорблениям в Сети не достичь. Две проблемы связаны с колоссальной сложностью естественного языка. Во-первых, алгоритмы пока еще очень плохо улавливают смысл слов, а в случае с фейками это важно. Во-вторых, даже если проблема выявления смыслов сдвинется с места, сразу же появятся технологии, которые будут обманывать алгоритмы, настроенные на поиск недостоверной информации, и эти алгоритмы придется переделывать. Возникнет ситуация гонки вооружений. Третья проблема — видео, которое приобретает все большую роль в информационном пространстве. Машинное понимание видео развито очень слабо, и эксперты MИТ полагают, что основные проблемы в ближайшие годы придут как раз со стороны фейковых видеоматериалов.

Фейки и Трамп

Исследователь из Стэнфордского университета Кумар Шриджан в своей недавней работе предлагает отличать фальшивые новости от ошибок, сплетен, фальшивых отзывов и мистификаций. Под fake news, по мнению ученого, следует понимать классическую дезинформацию, когда автор сообщения намеренно вводит аудиторию в заблуждение для достижения политических, пропагандистских или иных целей. Однако в эпоху интернета понятие fake news можно расширить и включить в него любую недостоверную информацию, маскирующуюся под проверенный новостной повод.

В Pew Research Center, американском исследовательском центре, занимающимся социальными вопросами, отмечают, что активное распространение фейков становится следствием поляризации общества. Самая поляризующая общество тема, конечно, политика, и fake news чаще всего имеют политическую окраску. Но это же происходит и в вопросах здравоохранения, биржевых котировок, криптовалют, проблемы ГМО.

По данным Pew Research Center, в первый год президентства Дональда Трампа градус разногласий между республиканцами и демократами по десяти ключевым политическим и социальным вопросам (расовые и иммиграционные проблемы, национальная безопасность, экология) достиг рекордного уровня. Растет неприязнь представителей партий США друг к другу: если в 1994 году только 16% демократов относились к Республиканской партии резко отрицательно, то к 2017 году этот показатель вырос до 44%. Аналогичным образом ухудшилось и отношение республиканцев к Демократической партии.

В ходе предвыборной гонки противостояние двух главных американских партий вылилось в бесконечный поток fake news как с одной, так и с другой стороны. Исследователи подсчитали, что в последние недели предвыборной кампании в США в 2016 году более четверти взрослых американцев заходили на сайты, намеренно и регулярно публиковавшие fake news с агитацией за Трампа или Хиллари Клинтон. Более того, во время американской предвыборной кампании топ-20 fake news в Facebook оказались совокупно более популярны, чем топ-20 реальных историй (фейки собрали 8,7 млн откликов пользователей, а настоящие новости — 7,3 млн).

Во всем виноваты технологии

После победы Трампа в ведущих западных научных журналах стали появляться статьи, в которых авторы попытались объяснить причины распространения фальшивых новостей, а также оценить возможности противодействия им. Исследования механизмов распространения фейков ведут ученые из Стэнфордского университета, Йеля, MТИ и университета Карнеги—Меллона. Так, Гордон Пенникук и Дэвид Рэнд из Йеля утверждают, что главная причина проблемы — леность мышления современной аудитории, которая зачастую критически не осмысливает поступающую к ней информацию. Эксперименты показывают, что люди довольно легко верят фальшивой информации, даже если она была создана без участия человека.

Другая причина — эффект эхо-камеры. Люди предпочитают верить той информации, которая соответствует их убеждениям, и в социальных сетях чаще окружают себя теми, кто разделяет их взгляды, при этом толерантность к противоположным мнениям резко уменьшается. Система лайков ведет к гомогенизации социальной сети, где альтернативные мнения не приветствуются и создается среда для приятия только идеологически подходящего содержания. Несогласные же приобретают статус противостоящей стороны и образуют «вражеский» информационный лагерь.

Онур Варол и его коллеги из Университета Индианы в Блумингтоне выяснили, что особенно быстро лживая информация распространяется в сети Twitter. При этом выделяют два типа распространения. Представим, что одно и то же сообщение получило более тысячи ретвитов. В одном случае его опубликовал известный человек с большим числом подписчиков, и тысяча пользователей сделала ретвит. При этом дальше сообщение не ретвитили — так бывает, если оно интересно только подписчикам человека. Такое сообщение характеризуется большой широтой проникновения, но малой глубиной. В другом случае сообщение малоизвестного человека получило десять ретвитов от друзей, а затем подписчики каждого из них продолжили делать ретвиты. Так может набраться та же тысяча, но глубина проникновения новости существенно выше. Фейки характеризуются тем, что одновременно обладают очень большой глубиной и шириной.

Еще до избрания Трампа при помощи компьютерных методов другие ученые из Университета Индианы, Майкл Коновер и Джейкоб Раткевич, исследовали 250 тыс. твитов (от 45 тыс. пользователей), содержащих политически окрашенные хештеги. Ученые выявили разную роль двух типов взаимодействия в Twitter: ретвит сообщения и упоминание другого пользователя, — эти взаимодействия рождают совершенно разные структуры (разные сетевые топологии). Если, например, провести анализ политических предпочтений участников Сети и построить граф (где узлы могут быть, например, сообщениями той или иной политической окраски) с использованием силовых алгоритмов, то сеть превратится в набор отстоящих друг от друга плотных клубков. Силовые алгоритмы моделируют силу притяжения и отталкивания между узлами (например, если узлом является сообщение, то на основе частоты ретвитов) и дают картину, в которой наиболее близкие по смыслу, содержанию или частоте упоминаний узлы находятся рядом, а другие отстоят чуть дальше.

В работе Коновера и Раткевича ретвиты дают два плотных, но отделенных друг от друга сообщества. Это феномен политической поляризации — пользователи делают ретвиты только тех, чья идеология им близка. Сетевая топология упоминаний других пользователей совершенно иная — здесь присутствует один плотный массив связей: пользователи, желающие обсуждать и взаимодействовать, обращаются к различным по содержанию твитам в равной степени. Авторы исследования делают вывод, что именно общение в комментариях и упоминания друг друга позволяют пользователям увидеть информацию, которую они рассматривают как нежелательную, что становится сдерживающим рост поляризации фактором.

«Цифра» против фейков

Ведущие компании меняют свои продукты, чтобы противостоять фейкам. Например, с fake news начал бороться WhatsApp, групповые чаты которого являются отличной средой для распространения фейковых новостей (особенно серьезная ситуация сложилась в Индии, где из-за распространяемых через WhatsApp фейковых сообщений о похищениях детей толпа линчевала нескольких жителей страны). Недавно WhatsApp представил новую функцию: теперь приложение автоматически будет переходить по всем пересылаемым в групповых чатах ссылкам, чтобы проверить, насколько можно верить источнику информации. Если приложение посчитает информацию недостоверной, сообщение будет отмечено красным значком «подозрительная ссылка», чтобы пользователи знали, каким новостям верить не стоит.

Компания Eyeo (создатель блокировщика рекламы Adblock) запустила расширение для Google Chrome под названием Trusted News. Разработчики проанализировали контент множества сайтов и составили их подробную классификацию. Расширение, пока работающее в бета-версии, отмечает сайт зеленым значком, если информации можно верить, желтым — если информация политически предвзятая, синим — если сайт представляет собой сатирический ресурс, в шутку распространяющий выдуманные новости.

Учитывая мультиканальность современных медиа, фейки распространяются не только в виде текстовой информации, но и в виде фотографий. Компания Adobe изучает технические возможности распознавания сфабрикованных фотографий: недавно компания опубликовала результаты исследовательской работы о том, как машинное обучение может обнаруживать фейковые фото. Исследовательская группа Adobe рассмотрела три основных способа манипуляции изображениями: копирование фрагментов оригинальной фотографии и вставка их в другое изображение, копирование и перемещение фрагментов в пределах одного изображения и удаление фрагментов изображения с последующей ретушью. В рамках исследования Adobe учила ИИ анализировать цветовой баланс и шумы изображения, чтобы обнаруживать фрагменты фото, которые подверглись ретуши.

Facebook тоже привлек ученых к исследованию феномена fake news и методов борьбы с ними: компания открыла данные со своих серверов исследователям, входящим в организацию Social Science One. Ученые получат доступ к петабайту данных: множеству постов на Facebook, среди которых есть и ссылки на фейковые новости. Исследователи смогут увидеть возраст, пол, политические взгляды, историю перехода по другим ссылкам всех, кто публиковал, лайкал и репостил эти публикации.

Особенно масштабную борьбу с фейками предпринял Google, который в марте этого года запустил программу Google News Initiative, призванную бороться с фейками и ботами. Всего на программу, рассчитанную на три года, Google выделил 300 млн долларов. Программа включает в себя несколько проектов. Например, проект Disinfo Lab (проводится совместно с программой Гарварда First Draft) призван бороться с дезинформацией во время выборов и в режиме breaking news: с помощью машинного обучения сервис будет определять ненадежные источники информации и исключать их из новостной выдачи.

Появляются и совместные волонтерские проекты исследователей и разработчиков из различных компаний — например, Fake News Challenge, который объединил сто волонтеров. Организаторы проекта устроили конкурс на разработку инструментов противостояния fake news. Участники Fake News Challenge разбили задачу выявления фейковых новостей на части: на первом этапе конкурса они создавали инструменты, позволяющие определять, насколько заголовок соответствует содержанию новости.

Одной из перспективных технологий, способной помочь в решении проблемы, является интеллектуальный анализ текста (text mining) — совокупность методов количественного и качественного анализа данных. Интеллектуальный анализ текста включает в себя методы машинного обучения, прикладной статистики и информационного поиска. Например, в понятие интеллектуального анализа текста включается технология поиска по ключевым словам, которая позволяет проанализировать частоту появления определенных слов в тексте. Соответствующие методы относятся к частным случаям анализа данных (data mining). Технологии позволяют выявлять закономерности и связи в текстовых массивах данных, разделять фрагменты текстов по категориям — среди прочего ученые могут создать каталог характерных для фейковых новостей черт (например, слова, носящие эмоциональную окраску) и на их основании отделять фейковую информацию от достоверной. Другие подходы включают в себя предиктивные модели: они присваивают новости положительные или отрицательные коэффициенты, по которым можно определять вероятность того, что история правдива.

Любопытно исследование Эликса Рула и его коллег из Колумбийского университета. Авторы провели машинный анализ содержания всех ежегодных посланий «О положении страны» президентов США за период с 1790 по 2014 год — это 228 посланий общим объемом более 1,7 млн слов. Ученые создали семантическую сеть на основании частоты совместного появления тех или иных слов в послании и разделили соответствующие слова на категории («преступность», «иммиграция», «флот» и проч.). Результаты показали как близость тем всех посланий, так и выпадение из дискурса одних тем и возникновение других. Подобные исследования гораздо больших массивов онлайн-данных не за горами, и рост вычислительных мощностей крупнейших корпораций откроет новые возможности для манипулирования информацией и политтехнологий.

Постправда

Главный редактор RT Маргарита Симоньян, выступая на Международном конгрессе по кибербезопасности, высказала опасения, что в ближайшем будущем технологии сделают fake news неотличимыми от правды. В качестве примера Симоньян привела фейковую новость о применении химического оружия в Сирии, распространенную организацией «Белые каски». Она подчеркнула, что в будущем нельзя будет доверять даже видеоматериалам, поскольку технологии смогут создать полную иллюзию достоверности.

В 2016 году редакция Оксфордского словаря объявила словом года термин «постправда». Слово описывает обстоятельства, когда при распространении информации эмоции и личные мнения важнее, нежели объективные факты. По мнению профессора Техасского университета Кэтлин Хиггинс, этот термин отлично характеризует состояние современного информационного пространства. Она подчеркивает, что сегодня общество легко верит фейковым новостям, политической пропаганде и ложным обещаниям политиков. Но так было не всегда: например, во времена Ричарда Никсона американцы крайне негативно воспринимали дезинформацию.

Как ни парадоксально, СМИ, которые, казалось бы, должны бороться с fake news, часто сами способствуют распространению фальшивок. Во многих новостных онлайн-изданиях существует правило: на написание новости у корреспондента должно уходить не более десяти минут, если новость срочная — не более пяти. Сайты фейковых новостей и непроверенные источники вроде соцсетей еще больше распыляют внимание журналистов. Появляются и сатирические издания, которые публикуют фейки в шутку: например, американский The Onion или российская «Панорама». Такие медиа специально указывают, что публикуемая ими информация — выдумка. И все же новостные издания часто не замечают этого и со всей серьезностью публикуют выдуманные сатирические новости, появившиеся на The Onion и «Панораме».

Одними только силами роботов, с помощью машинного обучения натренированных на распознавание сомнительных источников информации, в борьбе с фейками не обойтись. Даже ИТ-гиганты признают, что в распространении fake news крайне важен человеческий фактор. В Google News Initiative большое внимание уделяется обучению пользователей самостоятельно распознавать фейки. Вместе с Институтом Пойнтера, Стэнфордским университетом и Local Media Association Google запустил проект MediaWise, в который инвестировал три миллиона долларов. Проект представляет собой учебную программу для подростков: школьников и студентов будут учить самостоятельно определять подлинность информации в интернете. В рамках программы подростки будут работать вместе с профессиональными журналистами: ученики будут тренироваться в умении отличать в интернете правду от вымысла, а результаты их исследований будут опубликованы на различных сайтах и в социальных сетях. Институт Пойнтера планирует, что в программе примет участие один миллион подростков.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Новые луддиты Новые луддиты

Некоторые сотрудники западных компаний протестуют против автоматизации труда

РБК
Стало известно, чем питался «ледяной человек» Эци Стало известно, чем питался «ледяной человек» Эци

Тирольский «ледяной человек» Эци питался жирной пищей

National Geographic
«Люк, я твой…»: 56 лучших фильмов с неожиданными концовками «Люк, я твой…»: 56 лучших фильмов с неожиданными концовками

Представляем самые неожиданные концовки в истории кино

Playboy
Смерть на голове: кобра охотится на варана Смерть на голове: кобра охотится на варана

Блестящая съемка из Парка Крюгера в ЮАР

National Geographic
Как провести последние июльские выходные в Москве Как провести последние июльские выходные в Москве

Выходные в Москве: новые выставки, идеальный винтаж и дегустация тартаров

Vogue
Чужое бремя. Что делать, если мошенники оформили на вас кредит Чужое бремя. Что делать, если мошенники оформили на вас кредит

Паспортные данные могут быть использованы мошенниками для получения кредита

Forbes
Номер-люкс в центре Москвы, яхта и кафе: новинки Mercedes-Benz Номер-люкс в центре Москвы, яхта и кафе: новинки Mercedes-Benz

Открытие первого и единственного «Maybach Люкса» в России

National Geographic
Плата за геополитику. Почему «Газпром» начал занимать деньги в рублях Плата за геополитику. Почему «Газпром» начал занимать деньги в рублях

«Газпром» намерен занять на рынке рублевого долга сумму в 40 млрд рублей

Forbes
Ольга Ушакова: От плохого настроения не застрахован никто Ольга Ушакова: От плохого настроения не застрахован никто

Ведущая программы «Доброе утро» – о семье, детских мечтах и секретах счастья

Лиза
Кто такая Агния Миргородская Кто такая Агния Миргородская

Супергероиня из мира современного искусства Агния Миргородская

Vogue
Взаймы у соседа. Сможет ли взаимное кредитование отвоевать рынок у банков Взаймы у соседа. Сможет ли взаимное кредитование отвоевать рынок у банков

За последние четыре года рынок p2p-кредитования вырос более чем на 1000%

Forbes
Мозг и медитация. Чем знания тибетских монахов помогут в бизнесе Мозг и медитация. Чем знания тибетских монахов помогут в бизнесе

Как медитация влияет на нейропластичность мозга

Forbes
Рисуй, как Бекхэм! Как научиться рисовать в зрелом возрасте Рисуй, как Бекхэм! Как научиться рисовать в зрелом возрасте

С этой статьей ты научишься сносно рисовать, пользуясь правым полушарием мозга

Maxim
Одежды ангелов Одежды ангелов

Экскурсия по лондонскому ателье, где создают костюмы для главных киношедевров

Вокруг света
Убить Amazon: почему Walmart и Microsoft начали войну против Джеффа Безоса Убить Amazon: почему Walmart и Microsoft начали войну против Джеффа Безоса

Лозунг войны, разворачивающейся на рынке, — «Ни одного продукта от Amazon!»

Forbes
Все схвачено: тест-драйв походного рюкзака Terra 50 Все схвачено: тест-драйв походного рюкзака Terra 50

Тест-драйв походного рюкзака Terra 50. Испытание треком по Горному Алтаю

National Geographic
Квартира времени Квартира времени

Как пенсионерка из Петербурга превратила свою жизнь в музей

Огонёк
Худрук Худрук

Евгений Миронов жаждет преобразить культурное пространство в регионах страны

Эксперт
По обоюдному согласию По обоюдному согласию

Загородный дом для большой семьи

SALON-Interior
Геннадий Карюк. Конец прекрасной эпохи Геннадий Карюк. Конец прекрасной эпохи

Кинооператор Геннадий Карюк вспоминает Киру Муратову и Станислава Говорухина

Караван историй
Ночные едоки: почему они едят, когда нужно спать Ночные едоки: почему они едят, когда нужно спать

Кто из нас не бегал ночью к холодильнику, чтобы стащить что-нибудь вкусненькое

Psychologies
Открыты 12 новых спутников Юпитера. Один из них вращается по очень странной орбите Открыты 12 новых спутников Юпитера. Один из них вращается по очень странной орбите

Открыты 12 новых спутников Юпитера

National Geographic
Мама-енот спасает своих детенышей от рыси: видео Мама-енот спасает своих детенышей от рыси: видео

Дикие звери нередко обустраивают жилища рядом с человеком

National Geographic
Антисоциальные сети Антисоциальные сети

Оскорбительные посты и твиты продиктованы вовсе не жестокостью

National Geographic
Драться меня научил папа Драться меня научил папа

Денис Драгунский, мальчик из «Денискиных рассказов», сам стал писателем

Добрые советы
Спасибо, Кэрри, ты сломала мою жизнь Спасибо, Кэрри, ты сломала мою жизнь

Почему «Секс в большом городе» больше не актуален

Glamour
Самые загадочные места России — от Светлояра до Ловозера Самые загадочные места России — от Светлояра до Ловозера

Самые известные и малоизученные аномальные места в России

Playboy
10 культовых автомобилей XX века, которые мир помнит до сих пор 10 культовых автомобилей XX века, которые мир помнит до сих пор

Топ культовых автомобилей прошлого

Maxim
Найлл Слоан о своей первой коллекции для Escada Найлл Слоан о своей первой коллекции для Escada

Гимн классике модного Дома и сильным женщинам XXI века

Vogue
«Из-за разницы в возрасте  у нас не ладятся отношения» «Из-за разницы в возрасте  у нас не ладятся отношения»

Каждая семья проходит через кризисы

Psychologies
Открыть в приложении