Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
63 м² 63 м²

Дизайнер Семен Бортник создал интеллигентную атмосферу в новосибирской квартире

AD
Зачем вашей компании миссия и видение, и что туда вписать. Советы от CEO Dunkin’ Donuts Зачем вашей компании миссия и видение, и что туда вписать. Советы от CEO Dunkin’ Donuts

Советы руководителям от CEO Dunkin’ Donuts

Inc.
Атака этажерок-убийц. История первых самолетов-бомбардировщиков Атака этажерок-убийц. История первых самолетов-бомбардировщиков

История бомбардировщиков «Ильи Муромца» и «Цеппелин-Штаакена»

Maxim
Как нарядить «зеленую» елку: 7 экологичных идей новогодних украшений Как нарядить «зеленую» елку: 7 экологичных идей новогодних украшений

Как украсить дом к Новому году без лишних затрат и вреда для окружающей среды

РБК
Братья и сестры: как помочь им полюбить друг друга? Братья и сестры: как помочь им полюбить друг друга?

От чего зависит, как сложатся отношения братьев и сестер?

Psychologies
Театр одной актрисы: ситуации, в которых ты всегда притворяешься Театр одной актрисы: ситуации, в которых ты всегда притворяешься

Ситуации, в которых ты никогда не говоришь правду

Cosmopolitan
Зачем нужен PRO-режим камеры смартфона? Объясняем на примерах Зачем нужен PRO-режим камеры смартфона? Объясняем на примерах

Режим, который позволяет вручную установить практически все параметры съемки

CHIP
2007 год 2007 год

Выбор преемника, столица против провинции, «замкадье» и Мюнхенская речь Путина

Esquire
Цапли, ибис каравайка и бескрайние просторы: как в России развивается сельский заповедный туризм Цапли, ибис каравайка и бескрайние просторы: как в России развивается сельский заповедный туризм

Показываем, как живут современные заповедники России

Forbes
Шесть суровых фактов о публичных домах вермахта Шесть суровых фактов о публичных домах вермахта

Война войной, а любовь по расписанию

Maxim
Две мумии гамадрилов рассказали о дальних морских путешествиях египтян Две мумии гамадрилов рассказали о дальних морских путешествиях египтян

Родиной мумий гамадрилов оказался регион, охватывающий Эфиопию и соседние страны

N+1
88 м² 88 м²

Елена Симкина оформила квартиру для коллекционера работ Эрте

AD
Сладкие обещания: как владельцы кондитерской Lamm’s спасли бизнес, продавая сертификаты на эклеры Сладкие обещания: как владельцы кондитерской Lamm’s спасли бизнес, продавая сертификаты на эклеры

Как последняя попытка помогла Александре Ламм спасти бизнес и погасить долги

Forbes
Кому удалось воскресить старые автомобильные бренды, а кто – облажался Кому удалось воскресить старые автомобильные бренды, а кто – облажался

Зачем Renault возрождают Alpine и почему с рынка исчезли автомобили Bugatti

GQ
Временное кодирование увеличит размерность бозонного сэмплинга Временное кодирование увеличит размерность бозонного сэмплинга

Физики придумали новый способ бозонного сэмплинга в фотонной оптической схеме

N+1
Голой грудью за правду: 10 громких акций распавшегося движения FEMEN Голой грудью за правду: 10 громких акций распавшегося движения FEMEN

Мы вспомнили яркие и скандальные акции движения FEMEN

Cosmopolitan
6 мотивирующих признаков, что ты худеешь (кроме показателей весов, разумеется) 6 мотивирующих признаков, что ты худеешь (кроме показателей весов, разумеется)

Если замечаешь эти признаки, значит, ты на правильном пути в похудении!

Playboy
Эксклюзив Cosmo: интервью с Джеммой Чан — новой посланницей L’Oréal Paris Эксклюзив Cosmo: интервью с Джеммой Чан — новой посланницей L’Oréal Paris

Что вдохновляет Джемму Чан, что придает ей уверенности?

Cosmopolitan
«Горбушка» будет разрушена: история легендарного рынка и его владельцев «Горбушка» будет разрушена: история легендарного рынка и его владельцев

Кому легендарный московский рынок помог сколотить состояние

Forbes
Не папик, а муж! Не папик, а муж!

5 плюсов отношений с мужчиной, который намного старше тебя

Лиза
«Не пытайтесь решить все проблемы мира»: как Гитанджали Рао стала «ребенком года» по версии Time «Не пытайтесь решить все проблемы мира»: как Гитанджали Рао стала «ребенком года» по версии Time

Что нужно знать о Гитанджали Рао и чему у нее стоит поучиться

Forbes
Дела дачные Дела дачные

Загородный дом в стиле старой петербургской дачи

SALON-Interior
Хочу как они! Звездные пары, которые доказали существование любви на всю жизнь Хочу как они! Звездные пары, которые доказали существование любви на всю жизнь

Пары, доказавшие, что настоящую любовь все же не сочинили сказочники

Cosmopolitan
Болит спина? Это может быть стресс! Невролог рассказывает, что с этим делать Болит спина? Это может быть стресс! Невролог рассказывает, что с этим делать

Рассказываем, как стресс связан с болью в спине и что с этим делать

Cosmopolitan
«Чемпионы соцсетей»: чем опасны для компаний популярные в TikTok сотрудники «Чемпионы соцсетей»: чем опасны для компаний популярные в TikTok сотрудники

Инфлюенсер в TikTok может как заменить отдел маркетинга, так и ударить по бренду

Forbes
Фактор роста Фактор роста

Развеиваем мифы о длинных волосах и рассказываем, как правильно их отращивать

Glamour
Как заботиться о сердце: 6 полезных привычек Как заботиться о сердце: 6 полезных привычек

Как сохранить сердце здоровым на долгие годы?

РБК
Рождественские десерты из Европы Рождественские десерты из Европы

Настроение зимних праздников — это гирлянды, сосновый запах, кулинарные традиции

Seasons of life
7 самых простых в освоении музыкальных инструментов 7 самых простых в освоении музыкальных инструментов

Ты успеешь научиться играть на этих инструментах за неделю

Maxim
Открыть в приложении