Информационные цунами можно и нужно уметь предсказывать

Цифровой океанHi-Tech

Вeликий pусский читатель

Восемь миллиардов человек, населяющих землю, — это сила. Пять миллиардов из них, имеющих доступ в Интернет, — это уже стихия. Информационные цунами, которые люди с легкостью разгоняют в соцсетях, можно и нужно уметь предсказывать. Для этого достаточно всего лишь читать и понимать все, что пишут пять миллиардов человек

Текст: Виталий Кавтарадзе

Людям такая работа не по плечу, исследовать коллективное бессознательное в планетарных масштабах можно только с помощью роботов. Специалисты по компьютерной лингвистике и машинному обучению из компании Brand Analytics уже 10 лет учат машины понимать людей. Они рассказали нам, что…

Язык — это алгоритм, но…

Люди часто меняют правила по ходу игры. Так, еще в 1960-е годы пионеры компьютерной лингвистики решили представить язык как базу данных слов во всех возможных формах, а также свод правил их использования. При таком подходе обучение машины чтению напоминает знакомые всем уроки русского языка в школе. Учитель одновременно развивает словарный запас учеников и тренирует их определять части речи, проводить синтаксический анализ предложений, морфологический разбор слов по формальным признакам.

Пример: «Танцовщица распрямила кисть». Первое слово — существительное «танцовщица», имеет окончание «-а», а значит, используется в именительном падеже, единственном числе, имеет женский род. «Распрямила» — глагол, в котором окончание «-а» указывает на прошедшее время. Также можно установить, что «танцовщица» — подлежащее, это существительное указывает на объект, совершавший действие.

Такой простой, на первый взгляд, подход позволял машинам неплохо справляться с переводом официальных документов. Если слово нашлось в словаре на одном языке, нетрудно подобрать смысловой аналог из базы данных другого языка. Однако сразу возникли препятствия: алгоритмический анализ спотыкался об омонимы — одинаковые слова разного значения. Например, существительное «кисть» может означать часть руки, инструмент для рисования или ветку с ягодами. Для разрешения таких случаев лингвисты добавили в алгоритм анализ контекста, заставив машину смотреть, какие слова связаны со спорным словом. Другой проблемой стали редко используемые в языке слова и термины. Например, фамилию бывшего президента Франции Саркози компьютер может считать несуществующим глаголом «саркозить» в повелительном наклонении. Такие казусы решаются регулярным пополнением словарей, а также анализом частоты упоминания каждого слова вместе с другими.

Однако когда в 2000-е годы появились соцмедиа — площадки, на которых пользователи сами оставляют сообщения, — языки начали очень быстро меняться. Люди стали пользоваться письменной речью как устной*, и для выражения интонаций и эмоций потребовались новые инструменты: сокращения, эмодзи, фонетическое письмо. «Дратути» вместо «здравствуйте», «щас» вместо «сейчас» и «кагбэ» вместо «как бы». Чтобы понять такое, машины должны приспособиться к творческому использованию языка человеком.

* Подробнее об этом «Цифровой океан» вместе с лингвистом Максимом Кронгаузом рассказывал в материале «Садись, два!», опубликованном в выпуске № 5.

«В начале нашей работы с лингвистическими алгоритмами мы использовали готовые словари, но быстро поняли, что для качественного распознавания живого языка нужно создавать свои базы данных и тезаурус реального современного языка, а также регулярно их пополнять. Вложения в разработку словарей окупились: нам удалось поднять точность классификации текста и его тональности в среднем с 85% до 92%. Позже мы стали первой компанией в мире, разработавшей определение тональности для казахского языка». 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Светлaя стоpoнa Светлaя стоpoнa

Где проходит граница между искусством и коммерцией?

Цифровой океан
Важный нюанс, из-за которого у вас плохо получаются снимки с зумом Важный нюанс, из-за которого у вас плохо получаются снимки с зумом

Съемка с оптическим увеличением только на первый взгляд кажется простой

CHIP
100 самых сексуальных женщин страны: 100-53 100 самых сексуальных женщин страны: 100-53

Итоговый рейтинг «100 самых сексуальных женщин страны – 2019»

Maxim
Главный винодел России Леонид Попович: В СССР делали премиальное вино Главный винодел России Леонид Попович: В СССР делали премиальное вино

Как жили виноделы в годы горбачевской антиалкогольной кампании

СНОБ
Диалoг с миллионами Диалoг с миллионами

Как три власти взаимодействуют с гражданами в социальных сетях?

Цифровой океан
Что такое компилятор? Как работает: виды и примеры Что такое компилятор? Как работает: виды и примеры

Как компилятор помогает человек и компьютеру понять друг друга

Цифровой океан
Мaшины во вpeмени Мaшины во вpeмени

Изучать лунные кратеры и понимать животных — что еще нейросети делают лучше нас?

Цифровой океан
Загадка «ангарского цветка» Загадка «ангарского цветка»

Ученые находят растения, которые относят к цветковым, в слоях юрского периода

Наука и Техника
Беспилотное путешествие из Петepбургa в Мoскву Беспилотное путешествие из Петepбургa в Мoскву

Из северной столицы по платной трассе М11 выехал автомобиль без водителя

Цифровой океан
На полюс из стратосферы На полюс из стратосферы

Каково это — десантироваться с парашютом на Северный полюс с высоты 10,5 км?

ТехИнсайдер
Обpaтный отсчeт Обpaтный отсчeт

Сегодня есть множество приложений, которые сокращают подготовку к празднику

Цифровой океан
Позолоти перчатку: как зарабатывает и на что тратит состояние Тайсон Фьюри Позолоти перчатку: как зарабатывает и на что тратит состояние Тайсон Фьюри

Forbes Sport рассказывает о сумасшедших заработках Тайсона и его инвестициях

Forbes
Ирина Калабихина: «Демографический взрыв уже у нас за спиной» Ирина Калабихина: «Демографический взрыв уже у нас за спиной»

Экономист Ирина Калабихина — что с нами будет дальше и хватит ли всем места?

РБК
Ты лучший: можно ли завести роман с близким другом? Ты лучший: можно ли завести роман с близким другом?

Стоит ли вступать в отношения с близким другом? Расцениваем все риски

VOICE
Творческий прорыв Творческий прорыв

Как выйти из зоны комфорта с помощью креативности

Yoga Journal
Бегущая с волками. Какой получилась «Фуриоса: Хроники Безумного Макса»? Бегущая с волками. Какой получилась «Фуриоса: Хроники Безумного Макса»?

Несмотря на 2,5 часа хронометража, «Фуриоса» справляется с экспозицией за минуту

Правила жизни
Новая грамотность Новая грамотность

Что значит быть грамотным в современном мире?

Цифровой океан
От Гоши из «Москва слезам не верит» до Наумова из «Красных линий»: как менялся образ мужчины в российском кино От Гоши из «Москва слезам не верит» до Наумова из «Красных линий»: как менялся образ мужчины в российском кино

Как образ мужчины в российском кино отражал динамику общественных событий?

Maxim
Глубокоуважаемый вагоноуважатый Глубокоуважаемый вагоноуважатый

По уже Петербургу ездит больше двухсот трамваев, в которых за дорогой следит ИИ

Цифровой океан
6 фраз, которые взрослые дети мечтают услышать от своих родителей 6 фраз, которые взрослые дети мечтают услышать от своих родителей

Шесть важных фраз, которые родители могут (и должны) сказать повзрослевшим детям

Psychologies
«Настоящая ошибка — это молчание»: как раскрыть семейную тайну «Настоящая ошибка — это молчание»: как раскрыть семейную тайну

Как и когда открыть семейный секрет? Кому? Всегда ли и всем это знание полезно?

Psychologies
Почти как люди: почему и как растет рынок товаров для питомцев в России и зарубежом Почти как люди: почему и как растет рынок товаров для питомцев в России и зарубежом

Чем обусловлен рост рынка зоотоваров?

Inc.
Дэдпул, Росомаха и другие мутанты: 13 фильмов о Людях Икс от худшего к лучшему Дэдпул, Росомаха и другие мутанты: 13 фильмов о Людях Икс от худшего к лучшему

Вспоминаем фильмы о Людях Икс и выбираем лучший из них

Правила жизни
Белое или красное Белое или красное

Продукты и блюда, которые отлично сочетаются с разными видами вина

Лиза
Еще по одной: 10 мини-сериалов, которые можно посмотреть за вечер Еще по одной: 10 мини-сериалов, которые можно посмотреть за вечер

Необычные мини-сериалы, которые вы могли пропустить

Правила жизни
Неудачный дебют: почему «Чистильщик бассейнов» не дотягивает до большого кино Неудачный дебют: почему «Чистильщик бассейнов» не дотягивает до большого кино

Каким получился комедийный детектив о злостных коррупционерах

Forbes
Шекспир в окружении Шекспиров Шекспир в окружении Шекспиров

Кто был автором пьес, что традиционно приписываются актеру Уильяму Шекспиру?

Знание – сила
«Как я встретил ее маму»: психологический разбор героев нового фильма «Как я встретил ее маму»: психологический разбор героев нового фильма

«Как я встретил ее маму»: характеры и мотивы главных героев

Psychologies
Что такое неглект и как с ним бороться Что такое неглект и как с ним бороться

Неглект: что такое пассивное насилие? Как оно проявляется?

РБК
Радикальная оптимистка: как Дуа Липа заставила весь мир танцевать под свой бит Радикальная оптимистка: как Дуа Липа заставила весь мир танцевать под свой бит

Кто такая Дуа Липа и чем примечателен её альбом Radical Optimism?

Правила жизни
Открыть в приложении