Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Одна вокруг света: американские аллигаторы и ночная остановка в Южной Каролине Одна вокруг света: американские аллигаторы и ночная остановка в Южной Каролине

99-я серия о кругосветном путешествии москвички Ирины Сидоренко и ее собаки

Forbes
86 м² 86 м²

Вид на лесной массив в Покровском-Стрешневе соблазнил дизайнера Юлию Фаер

AD
Байки из дзота. Кто такие панфиловцы, от чего умер Гастелло и как звали Матросова Байки из дзота. Кто такие панфиловцы, от чего умер Гастелло и как звали Матросова

Подвиг их неизвестен, но имя их бессмертно!

Maxim
Почему мы толстеем от диет? Почему мы толстеем от диет?

Неожиданные последствия нашей одержимости похудением

kiozk originals
Лучшие геймпады для ПК: что выбрать в 2020 году? Лучшие геймпады для ПК: что выбрать в 2020 году?

Какой геймпад для ПК выбрать из невероятного множества предложений?

CHIP
«Ирония судьбы»: что говорят о фильме актеры спустя 45 лет? «Ирония судьбы»: что говорят о фильме актеры спустя 45 лет?

Что скрывается за всенародно любимым фильмом?

Cosmopolitan
Дина Юдина Дина Юдина

Осенью 92-летняя экс-адвокат и блокадница стала победительницей шоу «Голос 60+»

Собака.ru
Крах мечты: почему закрылись «Алые паруса» Крах мечты: почему закрылись «Алые паруса»

«Алые паруса» так и не смогли восстановиться после кризиса 2014 года

Forbes
Зачем нужен PRO-режим камеры смартфона? Объясняем на примерах Зачем нужен PRO-режим камеры смартфона? Объясняем на примерах

Режим, который позволяет вручную установить практически все параметры съемки

CHIP
Минуту внимания! Минуту внимания!

Как заинтриговать и увлечь любую аудиторию

kiozk originals
10 городских арт-объектов 10 городских арт-объектов

Самые удивительные и знаменитые арт-объекты мира

Esquire
Черным по белому Черным по белому

С чего начался бунт против собственной истории в США?

Огонёк
«Ширли» и еще 5 лучших психодрам о выдающихся писателях на грани нервного срыва «Ширли» и еще 5 лучших психодрам о выдающихся писателях на грани нервного срыва

Фильмы о писателях, которые добровольно погружались в безумие

Esquire
Темные аксионы ограничили с помощью нейтронных звезд Темные аксионы ограничили с помощью нейтронных звезд

В будущем это потенциально позволит напрямую обнаружить легкую темную материю

N+1
Алфавитная косметика Алфавитная косметика

Разбираемся в особенностях так называемой алфавитной косметики

Лиза
Последняя любезность: как Елизавета II навестила своего умирающего дядю Последняя любезность: как Елизавета II навестила своего умирающего дядю

Как королева почтила своим визитом Эдуарда VIII незадолго до его смерти

Cosmopolitan
Как снимать кино о мафии: уроки мастера Как снимать кино о мафии: уроки мастера

Как кровавая эпическая сага Мартина Скорсезе пришла к успеху

Playboy
Кулебяка — украшение русского стола Кулебяка — украшение русского стола

Старинная русская кулебяка — традиционное новогоднее угощение

Наука и жизнь
Пятиминутный путеводитель по животным, которые падают с неба Пятиминутный путеводитель по животным, которые падают с неба

Кто, когда падал с неба и почему это часто случается с птицами?

Esquire
Личная жизнь Анны Австрийской Личная жизнь Анны Австрийской

Анна Австрийская считалась самой красивой женщиной Европы своего времени

Дилетант
5 бизнес-инструментов для личной жизни и карьеры 5 бизнес-инструментов для личной жизни и карьеры

Иногда решить личную проблему можно с помощью опыта предпринимателей

Psychologies
«Не хочу и не обязан»: что нам должны наши друзья? «Не хочу и не обязан»: что нам должны наши друзья?

Разбираемся, есть ли границы в дружеской помощи и поддержке

Psychologies
Следите за языком и просите о помощи: 10 способов общаться с вредными, уставшими и пассивно-агрессивными коллегами Следите за языком и просите о помощи: 10 способов общаться с вредными, уставшими и пассивно-агрессивными коллегами

Авторы книги «Общение с трудными людьми» — о том, как общаться с коллегами

Forbes
Что делать, если за стеной кого-то убивают: психолог — о помощи жертвам абьюза Что делать, если за стеной кого-то убивают: психолог — о помощи жертвам абьюза

Что делать стоит, а что – нет, если слышите признаки абьюза за стеной

Cosmopolitan
«Самое ужасное то, что я еще 43 года назад предвидел политкорректность» «Самое ужасное то, что я еще 43 года назад предвидел политкорректность»

Рэй Брэдбери дал это интервью американскому PLAYBOY в мае 1996-го

Playboy
14 полезных привычек на каждый день, которые изменят твою жизнь к лучшему 14 полезных привычек на каждый день, которые изменят твою жизнь к лучшему

Подборка полезных привычек, которые помогут стать более счастливым человеком

Playboy
Что такое блуждающий нерв и зачем вам что-то о нем знать Что такое блуждающий нерв и зачем вам что-то о нем знать

Возможно, этот нерв – ключ к лечению болезней

GQ
О чём умолчали классики О чём умолчали классики

Давайте рассмотрим произведения русских писателей с точки зрения математики

Наука и жизнь
Уравнение капиллярной конденсации случайно сработало на атомарном масштабе Уравнение капиллярной конденсации случайно сработало на атомарном масштабе

Уравнение Кельвина работает и на уровне атомов

N+1
Открыть в приложении