Информационные цунами можно и нужно уметь предсказывать

Цифровой океанHi-Tech

Вeликий pусский читатель

Восемь миллиардов человек, населяющих землю, — это сила. Пять миллиардов из них, имеющих доступ в Интернет, — это уже стихия. Информационные цунами, которые люди с легкостью разгоняют в соцсетях, можно и нужно уметь предсказывать. Для этого достаточно всего лишь читать и понимать все, что пишут пять миллиардов человек

Текст: Виталий Кавтарадзе

Людям такая работа не по плечу, исследовать коллективное бессознательное в планетарных масштабах можно только с помощью роботов. Специалисты по компьютерной лингвистике и машинному обучению из компании Brand Analytics уже 10 лет учат машины понимать людей. Они рассказали нам, что…

Язык — это алгоритм, но…

Люди часто меняют правила по ходу игры. Так, еще в 1960-е годы пионеры компьютерной лингвистики решили представить язык как базу данных слов во всех возможных формах, а также свод правил их использования. При таком подходе обучение машины чтению напоминает знакомые всем уроки русского языка в школе. Учитель одновременно развивает словарный запас учеников и тренирует их определять части речи, проводить синтаксический анализ предложений, морфологический разбор слов по формальным признакам.

Пример: «Танцовщица распрямила кисть». Первое слово — существительное «танцовщица», имеет окончание «-а», а значит, используется в именительном падеже, единственном числе, имеет женский род. «Распрямила» — глагол, в котором окончание «-а» указывает на прошедшее время. Также можно установить, что «танцовщица» — подлежащее, это существительное указывает на объект, совершавший действие.

Такой простой, на первый взгляд, подход позволял машинам неплохо справляться с переводом официальных документов. Если слово нашлось в словаре на одном языке, нетрудно подобрать смысловой аналог из базы данных другого языка. Однако сразу возникли препятствия: алгоритмический анализ спотыкался об омонимы — одинаковые слова разного значения. Например, существительное «кисть» может означать часть руки, инструмент для рисования или ветку с ягодами. Для разрешения таких случаев лингвисты добавили в алгоритм анализ контекста, заставив машину смотреть, какие слова связаны со спорным словом. Другой проблемой стали редко используемые в языке слова и термины. Например, фамилию бывшего президента Франции Саркози компьютер может считать несуществующим глаголом «саркозить» в повелительном наклонении. Такие казусы решаются регулярным пополнением словарей, а также анализом частоты упоминания каждого слова вместе с другими.

Однако когда в 2000-е годы появились соцмедиа — площадки, на которых пользователи сами оставляют сообщения, — языки начали очень быстро меняться. Люди стали пользоваться письменной речью как устной*, и для выражения интонаций и эмоций потребовались новые инструменты: сокращения, эмодзи, фонетическое письмо. «Дратути» вместо «здравствуйте», «щас» вместо «сейчас» и «кагбэ» вместо «как бы». Чтобы понять такое, машины должны приспособиться к творческому использованию языка человеком.

* Подробнее об этом «Цифровой океан» вместе с лингвистом Максимом Кронгаузом рассказывал в материале «Садись, два!», опубликованном в выпуске № 5.

«В начале нашей работы с лингвистическими алгоритмами мы использовали готовые словари, но быстро поняли, что для качественного распознавания живого языка нужно создавать свои базы данных и тезаурус реального современного языка, а также регулярно их пополнять. Вложения в разработку словарей окупились: нам удалось поднять точность классификации текста и его тональности в среднем с 85% до 92%. Позже мы стали первой компанией в мире, разработавшей определение тональности для казахского языка». 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Настя Ивлеева Настя Ивлеева

Настя Ивлеева: «Цифровая реальность – это в высшей степени сексуально!»

Playboy
Внутривенный аполипопротеин А1 не снизил риск осложнений при инфаркте миокарда Внутривенный аполипопротеин А1 не снизил риск осложнений при инфаркте миокарда

Введение CSL112 не приводит к снижению риска инфаркта миокарда

N+1
Диалoг с миллионами Диалoг с миллионами

Как три власти взаимодействуют с гражданами в социальных сетях?

Цифровой океан
Репринт: «Виктор Вавич», «Древняя ночь вселенной» и другие возвращения Репринт: «Виктор Вавич», «Древняя ночь вселенной» и другие возвращения

Переиздания книг, которые не захочется выпускать из рук

Полка
Беспилотное путешествие из Петepбургa в Мoскву Беспилотное путешествие из Петepбургa в Мoскву

Из северной столицы по платной трассе М11 выехал автомобиль без водителя

Цифровой океан
Ребенок за штурвалом: страшная катастрофа Airbus A310 авиакомпании «Аэрофлот», которая унесла жизни 75 человек Ребенок за штурвалом: страшная катастрофа Airbus A310 авиакомпании «Аэрофлот», которая унесла жизни 75 человек

Эта авивкатастрофа заняла первое место в рейтинге «самых нелепых»

ТехИнсайдер
Колода джокеров и сорок сценариев будущего Колода джокеров и сорок сценариев будущего

Прогнозист Александр Чулок — о том, по какому пути может пойти развитие общества

РБК
Мясные лидеры наращивают долю рынка Мясные лидеры наращивают долю рынка

Участники девятого рейтинга «Агроинвестора» продолжили наращивать производство

Агроинвестор
1962: 60 лeт нaзaд 1962: 60 лeт нaзaд

Что было 60 лет назад и как появился первый троичный компьютер

Цифровой океан
Почему креативность — ключевой навык будущего Почему креативность — ключевой навык будущего

Почему работодатели стали обращать внимание именно на креативность сотрудников?

СНОБ
Обpaтный отсчeт Обpaтный отсчeт

Сегодня есть множество приложений, которые сокращают подготовку к празднику

Цифровой океан
Анатомия заблуждений: почему люди все еще верят в ложь, мистификацию и теории заговоров Анатомия заблуждений: почему люди все еще верят в ложь, мистификацию и теории заговоров

Отрывок из книги «Время заблуждений» — почему мы верим в ложные убеждения?

Inc.
Мaшины во вpeмени Мaшины во вpeмени

Изучать лунные кратеры и понимать животных — что еще нейросети делают лучше нас?

Цифровой океан
Я узнал, что у меня есть актерская семья: чем занимаются наследники голливудских семей Я узнал, что у меня есть актерская семья: чем занимаются наследники голливудских семей

Гид по самым известным голливудским семьям

Правила жизни
Торговля откалибрует фермерскую картошку Торговля откалибрует фермерскую картошку

Зачем крупнейшие российские ретейлеры открывают агроагрегаторы

Монокль
На ее книгах вырос Стивен Кинг: как Ширли Джексон превращала свои страхи в литературу На ее книгах вырос Стивен Кинг: как Ширли Джексон превращала свои страхи в литературу

История писательницы, на романах которой вырос Стивен Кинг

Forbes
Куда идут роботы Куда идут роботы

Как делают железных «друзей человека»? Рассказал инженер Антон Рогачев

Эксперт
Сопротивление — полезно Сопротивление — полезно

Ученые из Новосибирска создали мемристоры для перезапуска компьютерной индустрии

Монокль
Ключ к гармонии: 4 потребности и как их закрыть Ключ к гармонии: 4 потребности и как их закрыть

Как потребности более высокого уровня влияют на нашу жизнь?

Psychologies
Жизнь после: 6 фильмов о преодолении психологических травм Жизнь после: 6 фильмов о преодолении психологических травм

Фильмы о людях, которые смогли примириться со своими психологическими травмами

Psychologies
Туманное будущее: как фильм-катастрофа «Всемирный потоп» обманывает зрителей Туманное будущее: как фильм-катастрофа «Всемирный потоп» обманывает зрителей

Как история про апокалипсис оказывается тихой метафорой внутренних изменений

Forbes
«Все, что было его, – нынче ваше» «Все, что было его, – нынче ваше»

Место творчества Булата Окуджавы в современной литературе и литературоведении

Знание – сила
Дачный марафон Дачный марафон

Как не превратить дачный отдых в изнуряющий труд?

Лиза
Связывая микромир с громадной Вселенной Связывая микромир с громадной Вселенной

Дмитрий Горбунов о поиске других моделей эволюции Вселенной

Знание – сила
По капле крови По капле крови

Донорство крови: главные факты, которые важно знать

Лиза
Приятель Гая Ричи, партнер Кортни Кокс и враг Дэдпула: все фильмы Дэвида Бекхэма Приятель Гая Ричи, партнер Кортни Кокс и враг Дэдпула: все фильмы Дэвида Бекхэма

Актерская карьера экс-футболиста Дэвида Бекхэма

Forbes
Как живет Сургут, обязанный своим благополучием самому скромному миллиардеру страны Как живет Сургут, обязанный своим благополучием самому скромному миллиардеру страны

Как Фарман Салманов изменил Сургут?

Forbes
Почему мы боимся успеха и как справиться с этим страхом: советы психолога Почему мы боимся успеха и как справиться с этим страхом: советы психолога

Почему нам так страшно сделать решающий шаг к успеху?

Psychologies
Любовная телепатия: можем ли мы читать мысли друг друга Любовная телепатия: можем ли мы читать мысли друг друга

Существует ли любовная телепатия?

Psychologies
Одному боту известно: как простейший софт помогает абитуриентам поступить Одному боту известно: как простейший софт помогает абитуриентам поступить

Как талантливые абитуриенты перегружают отечественные вузы летом?

Forbes
Открыть в приложении