Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Что такое йога: инструкция для начинающих Что такое йога: инструкция для начинающих

Развенчиваем мифы о йоге и рассказываем, с чего начать

РБК
«День праха»: глава из нового романа Жана-Кристофа Гранже о комиссаре Ньемане «День праха»: глава из нового романа Жана-Кристофа Гранже о комиссаре Ньемане

Отрывок из нового романа признанного мастера триллера Жана-Кристофа Гранже

Forbes
7 вопросов о наших жировых клетках 7 вопросов о наших жировых клетках

Что влияет на жировые клетки? И как эти клетки потом влияют на нас?

Худеем правильно
Правила жизни Алексея Навального Правила жизни Алексея Навального

Адвокат, Москва, 44 года

Esquire
Российская компания выпустила оборудованный метеостанцией терминал для дронов Российская компания выпустила оборудованный метеостанцией терминал для дронов

Российская компания Gaskar Group представила автоматический терминал для дрона

N+1
Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла

Фрагмент из нового романа Дэвида Митчелла «Утопия-авеню»

Esquire
Портретная сходка Портретная сходка

О выставке «В круге Дягилевом» и о том, чем стал этот круг для русской культуры

Weekend
Голой грудью за правду: 10 громких акций распавшегося движения FEMEN Голой грудью за правду: 10 громких акций распавшегося движения FEMEN

Мы вспомнили яркие и скандальные акции движения FEMEN

Cosmopolitan
«Кто-то ставит Шекспира, кто-то ставит Чехова, а я ставлю Малевича» «Кто-то ставит Шекспира, кто-то ставит Чехова, а я ставлю Малевича»

Драган Живадинов о театре в невесомости и искусстве информанса

Weekend
Как записать подкаст дома Как записать подкаст дома

На случай, если в новом году вы захотите стать звездой собственного аудио-шоу

GQ
Зачем Россия спасает Никола Пашиняна Зачем Россия спасает Никола Пашиняна

Москва не хочет исправлять ошибки своей политики на постсоветском пространстве

СНОБ
Как спасти семейные ценности Как спасти семейные ценности

Как после развода проводить время с детьми родителям «выходного дня»?

СНОБ
Как русский бизнесмен выбил из IKEA 25 млрд рублей и попал в тюрьму Как русский бизнесмен выбил из IKEA 25 млрд рублей и попал в тюрьму

Константин Пономарев в 2010 году отсудил у шведской корпорации рекордную сумму

Forbes
Вернуть себе амбициозность: как Тори Берч и Мина Харрис борются с неравенством в бизнесе Вернуть себе амбициозность: как Тори Берч и Мина Харрис борются с неравенством в бизнесе

Где предпринимательницам искать поддержку?

Forbes
Разгружаемся: похудеть без чувства голода Разгружаемся: похудеть без чувства голода

10 правил разгрузочного режима известного французского диетолога Жака Фрикер

Здоровье
Дворец для мадам Мишель Дворец для мадам Мишель

Русский музей всегда полон посетителей

Караван историй
Алексей Сальников: «Общайся! Живи!» Юмористический рассказ Алексей Сальников: «Общайся! Живи!» Юмористический рассказ

Рассказ «Общайся! Живи!» о том, что такое смерть

СНОБ
App-ревью: лучшие приложения 2020 года по версии Playboy App-ревью: лучшие приложения 2020 года по версии Playboy

Самые оптимальные приложения-помощники на все случаи жизни

Playboy
Что произойдет с финансами в будущем? Что произойдет с финансами в будущем?

Что ждет наличные и финтех в будущем?

GQ
Людей назвали одной из главных причин смерти тихоокеанских косаток Людей назвали одной из главных причин смерти тихоокеанских косаток

Многие из косаток гибнут именно из-за столкновений с судами

N+1
Надо жить играючи Надо жить играючи

Светская Москва увлеклась психологической игрой лила

Vogue
«Беги со всех ног покупать “Огонек”» «Беги со всех ног покупать “Огонек”»

Отрывок из книги историка Анастасии Танцевовой

Огонёк
33 несчастья: как быть, если с тобой все время случаются мелкие неприятности? 33 несчастья: как быть, если с тобой все время случаются мелкие неприятности?

Понимание того, везет тебе или не везет, зависит только от угла зрения

Cosmopolitan
Выпускают змей и устраивают дебоши: звезды, на которых жалуются соседи Выпускают змей и устраивают дебоши: звезды, на которых жалуются соседи

Талантливые творческие люди не всегда могут быть приятными в быту

Cosmopolitan
19 м² 19 м²

Двухуровневая квартира Александры Ермиловой из BüroBlanc в здании бывшей фабрики

AD
Дух рождества Дух рождества

В самом немецком из французских городов Рождество отмечают пышно и со вкусом

Лиза
#улыбка #улыбка

Средства, которые заботятся о ваших зубах, а некоторые — еще и о нашей планете

Glamour
Целясь на экспорт Целясь на экспорт

ОЭЗ «Тольятти» интегрируется в мировое производство

Эксперт
Особые люди: как и для чего власть закрывает данные о себе Особые люди: как и для чего власть закрывает данные о себе

К чему приведет отнесение силовиков к категории особо защищенных лиц?

Forbes
Открыть в приложении