Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Не предупредил — несёшь ответственность сам»: современные мамы и папы о воспитании у детей отношения к деньгам и тратам «Не предупредил — несёшь ответственность сам»: современные мамы и папы о воспитании у детей отношения к деньгам и тратам

Как научить ребенка обращаться с деньгами: мнения родителей и специалистов

TJ
Как научиться воспринимать конструктивную критику: 4 рабочие стратегии Как научиться воспринимать конструктивную критику: 4 рабочие стратегии

Пора начать прислушиваться к взвешенному мнению окружающих

Playboy
Выделение речи из шума приписали медиальному ядру трапециевидного тела Выделение речи из шума приписали медиальному ядру трапециевидного тела

Эта зона мозга называется медиальным ядром трапециевидного тела

N+1
Стоит ли покупать видеокарты на вторичке: плюсы и минусы Стоит ли покупать видеокарты на вторичке: плюсы и минусы

Сэкономить или же переплатить за гарантированно работоспособную видеокарту?

CHIP
Как изобрели санки и почему они стали традиционной зимней забавой? Как изобрели санки и почему они стали традиционной зимней забавой?

Как и когда появились русские сани?

Культура.РФ
Правила жизни Джейн Биркин Правила жизни Джейн Биркин

Актриса, певица, Лондон, 74 года

Esquire
10 слов, помогающих понять турецкую культуру 10 слов, помогающих понять турецкую культуру

Стыд, честь, уважение — слова, которые помогают понять турецкую культуру

Arzamas
P.S.: 2010 год P.S.: 2010 год

Нулевые, которые страна провела в офисах и клубах, закончились

Esquire
Древние люди могли впадать в спячку, чтобы пережить холодные зимы Древние люди могли впадать в спячку, чтобы пережить холодные зимы

Как древние люди переживали холодные зимы?

National Geographic
Правила жизни Бена Кингсли Правила жизни Бена Кингсли

Правила жизни актера Бена Кингсли

Esquire
Молочно-мясную диету Индской цивилизации восстановили по керамическим черепкам Молочно-мясную диету Индской цивилизации восстановили по керамическим черепкам

И горожане и деревенские индской цивилизации ели мясо и молочные продукты

N+1
Новые атомные часы измерили время с рекордной точностью Новые атомные часы измерили время с рекордной точностью

В основе действия этих атомных часов лежит явление квантовой запутанности

National Geographic
Павианы научились ворчанию у соплеменников Павианы научились ворчанию у соплеменников

Социальная близость повлияла на издаваемые павианами звуки

N+1
Живые клетки — химики Живые клетки — химики

Природные аналоги широко известных искусственных соединений

Наука и жизнь
Цены возбуждающего характера: почему не следует разрушать рыночную экономику в угоду популизму Цены возбуждающего характера: почему не следует разрушать рыночную экономику в угоду популизму

Мы рискуем получить или дефицит, или ускоренный рост цен на другие товары

Forbes
Палеонтологи изучили невероятные глаза вымершего морского монстра Палеонтологи изучили невероятные глаза вымершего морского монстра

Оказалось, они были довольно зоркими животными

National Geographic
Самые ироничные и нелепые случаи, когда в России наказывали за изображение свастики Самые ироничные и нелепые случаи, когда в России наказывали за изображение свастики

Нередки случаи, когда штрафы выписывают за символы, не относящиеся к запрещенным

Maxim
Лотерея в России: история, культура, технологии Лотерея в России: история, культура, технологии

История лотереи в России: от петровских времен до наших дней

СНОБ
Счастливые предсказания не сбываются Счастливые предсказания не сбываются

Мы сбились с пути или ходим по спирали?

Огонёк
7 образов Валентина Гафта в кино 7 образов Валентина Гафта в кино

Вспоминаем самых стильных героев Валентина Гафта

GQ
Фактчек: 14 самых популярных легенд о Юлии Цезаре Фактчек: 14 самых популярных легенд о Юлии Цезаре

Разбираем легенды о Цезаре: что из этого правда, а что нет

Arzamas
Осьминоги любят давать рыбе «леща»: морские хулиганы Осьминоги любят давать рыбе «леща»: морские хулиганы

Зачем осьминоги бьют рыбу во время совместного кормления

Популярная механика
Как стать принцессой Как стать принцессой

Эмма Коррин – о роли принцессы Дианы в четвертом сезоне сериала «Корона»

Grazia
«Шанс понять, как развивалась Земля» «Шанс понять, как развивалась Земля»

Чего ждут ученые от новой порции лунного грунта

Огонёк
2001 год 2001 год

Митинг журналистов НТВ, шоу «За стеклом», появление «Единой России»

Esquire
Сергей Гандлевский о Льве Лосеве Сергей Гандлевский о Льве Лосеве

Сергей Гандлевский разбирает стихотворения Льва Лосева и рассказывает о нем

Arzamas
Кислоты и холода: что российские клиенты ждут от рынка косметологии Кислоты и холода: что российские клиенты ждут от рынка косметологии

Какие бьюти-процедуры интересуют женщин и почему ботокс все еще популярен?

Forbes
Открытый код как открытый вход Открытый код как открытый вход

5 из 10 популярных приложений с открытым кодом включают критические уязвимости

РБК
Характер нордический Характер нордический

Интервью с актером Кириллом Зайцевым о стиле, часах и только нужных вещах

OK!
Чужие здесь не ходят: к кому обращается Путин на пресс-конференциях и прямых линиях Чужие здесь не ходят: к кому обращается Путин на пресс-конференциях и прямых линиях

Пресс-конференции президента рассчитаны на россиян старшего поколения

Forbes
Открыть в приложении