Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Полезные привычки, которые изменят вашу жизнь. Адвент-календарь Esquire Полезные привычки, которые изменят вашу жизнь. Адвент-календарь Esquire

Адвент-календарь полезных привычек, которые совсем несложно освоить

Esquire
Хихийный пошив: самая нелепая форма футболистов мира Хихийный пошив: самая нелепая форма футболистов мира

Как хорошеет футбол, когда за дело берутся дизайнеры одежды!

Maxim
Как видеоигры стали новым кино и теперь собираются стать новым IT Как видеоигры стали новым кино и теперь собираются стать новым IT

Как видеоигры будут менять в ближайшее время и на каких из них можно заработать

Forbes
Чудо Светы Чудо Светы

Для Светланы Ходченковой 2020 год оказался удачным

Grazia
Если болят колени: восстанавливаем здоровье суставов Если болят колени: восстанавливаем здоровье суставов

Разбираемся, как именно нужно заботиться о коленях

Psychologies
9 мифов о здоровье, в которые пора перестать верить (это городские легенды) 9 мифов о здоровье, в которые пора перестать верить (это городские легенды)

Мифы о здоровье, которые могут тебе навредить

Playboy
Можно ли удержать партнера с помощью секса? Можно ли удержать партнера с помощью секса?

Можно ли при помощи секса спасти угасающие чувства?

Psychologies
2002 год 2002 год

Теракт на Дубровке, футбольный погром, запуск «Масяни» и «Идущие вместе»

Esquire
Автор бестселлера о башнях-близнецах – о катастрофе, которую еще можно предотвратить Автор бестселлера о башнях-близнецах – о катастрофе, которую еще можно предотвратить

Возможно, вы станете есть меньше мяса, прочитав книгу «Погода – это мы»

GQ
Главный злодей в триллере о пандемии — банальный грипп. Фрагмент из книги «Следующая пандемия» Главный злодей в триллере о пандемии — банальный грипп. Фрагмент из книги «Следующая пандемия»

Отрывок из книги Али Хана об опасности, которую несёт грипп

СНОБ
Зачем нужен PRO-режим камеры смартфона? Объясняем на примерах Зачем нужен PRO-режим камеры смартфона? Объясняем на примерах

Режим, который позволяет вручную установить практически все параметры съемки

CHIP
Ореховый торт без муки Ореховый торт без муки

Старинный рецепт поразительного орехового бисквита

Weekend
Как успокоить собаку во время фейерверков Как успокоить собаку во время фейерверков

5 советов от кинолога для владельцев нервных четвероногих друзей

Maxim
Интегральные источники одиночных фотонов стали в десять раз ярче Интегральные источники одиночных фотонов стали в десять раз ярче

Их дальнейшая интеграция позволит создавать мощные квантовые устройства

N+1
Лучшие зарубежные музыкальные альбомы 2020 года Лучшие зарубежные музыкальные альбомы 2020 года

Музыкальные альбомы, которые пробились сквозь информационный шум 2020 года

Esquire
Перестаньте отвечать «я занят». Гарвардские ученые доказали, что это обижает собеседника Перестаньте отвечать «я занят». Гарвардские ученые доказали, что это обижает собеседника

Ученые советуют никогда не отвечать так ни друзьям, ни коллегам

Inc.
Как сделать действительно крутого снеговика: снежный дьявол и еще четыре идеи Как сделать действительно крутого снеговика: снежный дьявол и еще четыре идеи

Стоит пройти снегопаду, и тысячи взрослых высыпают на улицы лепить снеговиков

Maxim
«Наука сознания. Современная теория субъективного опыта» «Наука сознания. Современная теория субъективного опыта»

Фрагмент книги «Наука сознания. Современная теория субъективного опыта»

N+1
«Легко ли плыть в сиропе. Откуда берутся странные научные открытия» «Легко ли плыть в сиропе. Откуда берутся странные научные открытия»

Отрывок из книги «Легко ли плыть в сиропе» о научных работах

N+1
Орангутаны заразились зевотой от сородичей Орангутаны заразились зевотой от сородичей

Орангутаны могут заражать друг друга зевотой

N+1
«Ты можешь все»: мотивация или заблуждение? «Ты можешь все»: мотивация или заблуждение?

Что нас ограничивает и так ли плохо видеть границы своих возможностей?

Psychologies
63 м² 63 м²

Дизайнер Семен Бортник создал интеллигентную атмосферу в новосибирской квартире

AD
Элиа Сулейман — палестинский режиссер с мировым именем Элиа Сулейман — палестинский режиссер с мировым именем

У легендарного палестинского режиссера вышел новый фильм

GQ
Цейтнот: значение слова и примеры этого явления в нашей жизни Цейтнот: значение слова и примеры этого явления в нашей жизни

Объяснение термина «цейтнот», история происхождения слова, синонимы и примеры

Playboy
В Германии нашли окаменелости древнейшего питона В Германии нашли окаменелости древнейшего питона

Он жил 47,6 миллиона лет назад

N+1
Взлет разрешен Взлет разрешен

Ученик Николая Цискаридзе, который воспарил до Спартака, Зигфрида и Щелкунчика

GQ
Шутки в сторону Шутки в сторону

Рэйчел Броснахэн – о дискриминации в кино, бодипозитиве и любви

Cosmopolitan
Эпиляция и депиляция: что можно и нельзя во время беременности Эпиляция и депиляция: что можно и нельзя во время беременности

Какие методы эпиляции и депиляции можно использовать во время беременности?

9 месяцев
Алфавитная косметика Алфавитная косметика

Разбираемся в особенностях так называемой алфавитной косметики

Лиза
Открыть в приложении