Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Как записать подкаст дома Как записать подкаст дома

На случай, если в новом году вы захотите стать звездой собственного аудио-шоу

GQ
10 самых безумных автомобилей XX века 10 самых безумных автомобилей XX века

Изобретатели автомобилей порой доходили до очень причудливых моделей

Maxim
Как советская кинематография сняла свой первый хит и оказалась не готова к его успеху Как советская кинематография сняла свой первый хит и оказалась не готова к его успеху

Заграничный триумф и советский провал «Броненосца „Потемкин“»

Weekend
Актриса в разводе и бунтарь: история романа принца Гарри и Меган Маркл Актриса в разводе и бунтарь: история романа принца Гарри и Меган Маркл

Какие испытания прошли Меган и Гарри, чтобы остаться вместе?

Cosmopolitan
Бейсбол перед эшафотом: как заключенные из камеры смертников чуть не стали чемпионами Америки Бейсбол перед эшафотом: как заключенные из камеры смертников чуть не стали чемпионами Америки

Каждый выигранный матч означал для этой команды отсрочку смертной казни

Maxim
Из мягкого гидрогеля напечатали анатомически точную модель сердца в натуральную величину Из мягкого гидрогеля напечатали анатомически точную модель сердца в натуральную величину

Анатомически точные модели органов помогут в обучении хирургов

N+1
Ученые обнаружили в ядовитой пещере огромную многоножку: миллионы лет под землей Ученые обнаружили в ядовитой пещере огромную многоножку: миллионы лет под землей

В древней пещере Мовиле ученые нашли весьма необычных существ

Популярная механика
Надо жить играючи Надо жить играючи

Светская Москва увлеклась психологической игрой лила

Vogue
9 мифов о еде, которым ты веришь совершенно напрасно 9 мифов о еде, которым ты веришь совершенно напрасно

Узнай всю правду о еде, и питаться правильно тебе будет гораздо легче

Maxim
Как выбрать подгузник: важные параметры Как выбрать подгузник: важные параметры

Подгузники для детей различаются по размеру (весу ребенка), фасону и цене

9 месяцев
Почетный донер: как вычислить безопасную (сравнительно) шаурму Почетный донер: как вычислить безопасную (сравнительно) шаурму

Разбираемся, как не ошибиться с выбором шаурмы, подойдя к палатке шаурмена

Maxim
Взлет разрешен Взлет разрешен

Ученик Николая Цискаридзе, который воспарил до Спартака, Зигфрида и Щелкунчика

GQ
Моя терапия: «Я перестала бояться праздников» Моя терапия: «Я перестала бояться праздников»

Как нашей героине удалось изменить своё отношение к праздникам

Psychologies
Возрастные явления Возрастные явления

Молодой прозаик в поисках лишнего человека

Огонёк
Нечистая порода Нечистая порода

Не вредит ли животным наша любовь к чистопородным и дизайнерским собакам?

Robb Report
Правила жизни Пабло Эскобара Правила жизни Пабло Эскобара

Правила колумбийского наркобарона и политического деятеля Пабло Эскобара

Esquire
Чем открыть HEIC и как перевести его в JPEG на Windows 7 или 10 Чем открыть HEIC и как перевести его в JPEG на Windows 7 или 10

Самые эффективные способы открыть файл формата .heic

CHIP
Интервью с режиссером Георгием Сурковым Интервью с режиссером Георгием Сурковым

Интервью с молодым режиссером «Современника» Георгием Сурковым

СНОБ
Четыре случая в истории, наглядно показывающие, что с радиацией шутки плохи Четыре случая в истории, наглядно показывающие, что с радиацией шутки плохи

Радиация vs. человеческая глупость — 1:0

Maxim
Почему подход Waymo к автопилоту может оказаться надёжнее подхода Tesla Почему подход Waymo к автопилоту может оказаться надёжнее подхода Tesla

Чем примечателен подход Waymo к автономным такси?

VC.RU
Мужикам тут не место: 10 странных локаций, куда ты можешь попасть с ее помощью (ад не считается) Мужикам тут не место: 10 странных локаций, куда ты можешь попасть с ее помощью (ад не считается)

Куда дамы любят выгуливать своих новых кавалеров?

Maxim
Астрономы нашли аналог Девятой планеты Астрономы нашли аналог Девятой планеты

Эта экзопланета совершает один оборот вокруг родительских звезд за 15 тысяч лет

N+1
«Я могла сделать карьеру в супермаркете» «Я могла сделать карьеру в супермаркете»

Актриса Жюльетт Бинош — о своем пути в кино

Огонёк
Какую игровую консоль выбрать для ребенка в подарок? Какую игровую консоль выбрать для ребенка в подарок?

Доступные консоли, которые подойдут для подарка ребенку

CHIP
«Кризис на всем ходу врезался в вершину пирамиды Маслоу»: как 2020 год подвинул современное искусство ближе к людям «Кризис на всем ходу врезался в вершину пирамиды Маслоу»: как 2020 год подвинул современное искусство ближе к людям

Итоги года для российского искусства

Forbes
Правила жизни Сэмюэла Л. Джексона Правила жизни Сэмюэла Л. Джексона

Актер, Вашингтон, 72 года

Esquire
В корне питательно В корне питательно

Как картошка покорила Россию

Огонёк
Кто подставил Путина. Почему власть больше не преследует авторов расследований о семье президента Кто подставил Путина. Почему власть больше не преследует авторов расследований о семье президента

Как хотите, а в Кремле явно творится что-то неладное

СНОБ
9 неочевидных признаков, по которым местные моментально вычисляют туристов 9 неочевидных признаков, по которым местные моментально вычисляют туристов

Нет, туристов узнают не только по большому фотоаппарату

Playboy
Открыть в приложении