Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Кровь с матерком Кровь с матерком

Ксения Рождественская о фильме «ДНК» как шоу токсичных родственников

Weekend
О чём умолчали классики О чём умолчали классики

Давайте рассмотрим произведения русских писателей с точки зрения математики

Наука и жизнь
Пандемия и страсть: как новый мир создает новый секс Пандемия и страсть: как новый мир создает новый секс

Секс-блогер Мария Чеснокова рассуждает о том, как изменилась секс-индустрия

Cosmopolitan
Эффективная лень и полезный стресс — как запустить каскад изменений в своей жизни Эффективная лень и полезный стресс — как запустить каскад изменений в своей жизни

Как уметь договариваться с собой и другими

Forbes
Как сформировать у ребенка правильные финансовые привычки Как сформировать у ребенка правильные финансовые привычки

В каком возрасте и как правильно знакомить ребенка с деньгами?

Psychologies
Андреева в Павлова Андреева в Павлова

Паулина Андреева — с деловым визитом в Лабораторию экспериментальной генетики

Собака.ru
Государственные думы Государственные думы

Тридцать лет Российской Федерации! «Что это за «ция» такая?»

GQ
#ароматы #ароматы

Парфюм, который позволяет путешествовать не выходя из дома

Glamour
Придумала облачные услуги, борется с Microsoft и мечтает о выручке $60 млрд: чем известна Salesforce, покупающая Slack Придумала облачные услуги, борется с Microsoft и мечтает о выручке $60 млрд: чем известна Salesforce, покупающая Slack

Как развивается одна из самых успешных компаний на рынке облачного ПО

VC.RU
Супермикроспособности Супермикроспособности

Человеку не дано крыльев, вечной жизни и способностей к телепортации

Maxim
«‎На каждой странице я спрятал несколько разбросанных букв». Дэн Браун выпустил музыкальную книгу для детей, полную головоломок «‎На каждой странице я спрятал несколько разбросанных букв». Дэн Браун выпустил музыкальную книгу для детей, полную головоломок

Интервью с Дэном Брауном о новой книге «Звериная симфония»

СНОБ
На самоизоляции с крестным отцом Фрэнсисом Фордом Копполой На самоизоляции с крестным отцом Фрэнсисом Фордом Копполой

Каково это, на семь месяцев уединиться с легендарным режиссер и его семьей?

Esquire
4 способа ненавязчиво привлечь внимание партнера 4 способа ненавязчиво привлечь внимание партнера

Какими способами лучше вернуть интерес партнера

Psychologies
5 причин заблокировать свой аккаунт в социальных сетях 5 причин заблокировать свой аккаунт в социальных сетях

Почему всем нам порой отказываться от интернета и социальных сетей

Psychologies
Карабас-Барабас и кукольная экономика: чем грозит миру нынешняя политика правительств и регуляторов Карабас-Барабас и кукольная экономика: чем грозит миру нынешняя политика правительств и регуляторов

Ликвидность и нулевые процентные ставки усугубляют перекосы в экономиках

Forbes
Театр одной актрисы: ситуации, в которых ты всегда притворяешься Театр одной актрисы: ситуации, в которых ты всегда притворяешься

Ситуации, в которых ты никогда не говоришь правду

Cosmopolitan
«Дурная кровь»: отрывок из новой книги Джоан Роулинг из цикла о детективе Корморане Страйке «Дурная кровь»: отрывок из новой книги Джоан Роулинг из цикла о детективе Корморане Страйке

Отрывок из детективного романа Роберта Гэлбрейта (псевдоним Джоан Роулинг)

Forbes
Голубой цвет елям придают нанотрубки Голубой цвет елям придают нанотрубки

Почему некоторые ели имеют голубой цвет иголок?

Популярная механика
Обновленцы: красная церковь Обновленцы: красная церковь

Православная Реформация под опекой большевизма

Weekend
«Когда ты по-настоящему счастлив, то не боишься всё потерять». Правила бизнеса легендарного главы Zappos Тони Шея «Когда ты по-настоящему счастлив, то не боишься всё потерять». Правила бизнеса легендарного главы Zappos Тони Шея

Тони Шей о том, как относиться к сотрудникам и почему не в деньгах счастье

Inc.
41 м² 41 м²

Заказчик бюро Suite Home Interiors оказался ценителем дизайнерской мебели

AD
Четыре знаменитых личности, прочитавших собственные некрологи Четыре знаменитых личности, прочитавших собственные некрологи

Чтение своего некролога — удовольствие, которого лишены простые люди

Maxim
Четыре случая в истории, наглядно показывающие, что с радиацией шутки плохи Четыре случая в истории, наглядно показывающие, что с радиацией шутки плохи

Радиация vs. человеческая глупость — 1:0

Maxim
Брак с конюхом: как сложилась личная жизнь единственной дочери Елизаветы II Брак с конюхом: как сложилась личная жизнь единственной дочери Елизаветы II

Разбираемся в том, что правда, а что вымысел в сериале «Корона»

Cosmopolitan
Как дизайн-мышление помогает DeepTech-компаниям создавать новые технологии Как дизайн-мышление помогает DeepTech-компаниям создавать новые технологии

Как использовать дизайн-мышление, чтобы изобретать новое и проектировать будущее

Inc.
10 мужских профессий, востребованных даже в кризис! 10 мужских профессий, востребованных даже в кризис!

Десять профессий, над которыми не властны инфляция, санкции и творческие кризисы

Maxim
63 м² 63 м²

Дизайнер Семен Бортник создал интеллигентную атмосферу в новосибирской квартире

AD
5 мифов о созависимости 5 мифов о созависимости

Что порождает множество ложных убеждений о состоянии созависимости

Psychologies
Пьянящий актив Пьянящий актив

Власти Крыма продают «Массандру» вместе с сотнями тысяч бутылок вина

Forbes
Открыть в приложении