Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
7 слов, помогающих жить в неопределенности 7 слов, помогающих жить в неопределенности

Как существовать в эти смутные времена полноценно, не теряя ни дня своей жизни?

Psychologies
Как нельзя носить оверсайз-пиджак: 6 признаков, что ты делаешь это неправильно Как нельзя носить оверсайз-пиджак: 6 признаков, что ты делаешь это неправильно

Пришло время разобраться в ошибках, которые можно совершать, надевая оверсайз

Cosmopolitan
Тея Обрехт: Без воды. Отрывок из романа Тея Обрехт: Без воды. Отрывок из романа

Отрывок из истории Лури, который исполняет желания призраков

СНОБ
Прикоснуться к сердцу Прикоснуться к сердцу

Завтрак съешь сам — этого правила неизменно придерживаются на юге Китая

Вокруг света
Существует ли «быстрый» и «медленный» метаболизм: рассказывают ученые Существует ли «быстрый» и «медленный» метаболизм: рассказывают ученые

Но действительно ли обмен веществ может быть быстрым или медленным?

Популярная механика
Байки из дзота. Кто такие панфиловцы, от чего умер Гастелло и как звали Матросова Байки из дзота. Кто такие панфиловцы, от чего умер Гастелло и как звали Матросова

Подвиг их неизвестен, но имя их бессмертно!

Maxim
Дыши легко Дыши легко

Простые практики, которые повышают иммунитет

Лиза
Литература Литература

Константин Мильчин рассказывает, какой была русская литература эпохи нулевых

Esquire
Рейтинг брендов Рейтинг брендов

Новые марки, которые стали заметны на рынке за год

Forbes
Дизайн служения Дизайн служения

Латвия славится особым подходом к дизайну — осознанным, смелым

Seasons of life
«В школе меня травили из-за фигуры. Теперь я поддерживаю тех, кто страдает от буллинга» «В школе меня травили из-за фигуры. Теперь я поддерживаю тех, кто страдает от буллинга»

Актриса Алена Швиденкова рассказывает, как правильно поддерживать себя

Psychologies
Лучшие зарубежные музыкальные альбомы 2020 года Лучшие зарубежные музыкальные альбомы 2020 года

Музыкальные альбомы, которые пробились сквозь информационный шум 2020 года

Esquire
Во имя отца и сына. На Netflix вышел «Манк» — ревизия «Гражданина Кейна» от режиссера Дэвида Финчера и сценариста Джека Финчера, его отца Во имя отца и сына. На Netflix вышел «Манк» — ревизия «Гражданина Кейна» от режиссера Дэвида Финчера и сценариста Джека Финчера, его отца

«Манк» — новый фильм Дэвида Финчера, который обязательно войдет в историю

Esquire
Главные правила контраварийного вождения Главные правила контраварийного вождения

Прокачай свои водительские навыки!

Maxim
Человек-бабочка: 10 фактов о Вацлаве Нижинском Человек-бабочка: 10 фактов о Вацлаве Нижинском

Вацлав Нижинский стал известен всему Петербургу после первой же своей роли

Культура.РФ
«Хаос. Создание новой науки» «Хаос. Создание новой науки»

Отрывок из книги Джеймса Глика «Хаос. Создание новой науки»

N+1
Что смотреть: 10 дорам о любви, которые идеальны для совместного просмотра Что смотреть: 10 дорам о любви, которые идеальны для совместного просмотра

Любовные киноистории из Южной Кореи и Китая — это нечто прекрасное

Cosmopolitan
Признаки беременности: как распознать их до задержки Признаки беременности: как распознать их до задержки

Какие бывают признаки беременности на ранних сроках?

Cosmopolitan
Загадка Антона Лапенко: как комик из многодетной семьи стал звездой YouTube и зарабатывает миллионы на ностальгии по 90-м Загадка Антона Лапенко: как комик из многодетной семьи стал звездой YouTube и зарабатывает миллионы на ностальгии по 90-м

В чем заключается гениальность Антона Лапенко?

Forbes
«Ты можешь все»: мотивация или заблуждение? «Ты можешь все»: мотивация или заблуждение?

Что нас ограничивает и так ли плохо видеть границы своих возможностей?

Psychologies
Потому что могу Потому что могу

Фитнес-гуру Наташа Давыдова теперь на ТВ

Glamour
Остановись, мгновенье! Остановись, мгновенье!

Актриса Мария Миронова второй раз стала мамой год с небольшим назад

OK!
Как научиться брать от жизни все: 8 главных правил Как научиться брать от жизни все: 8 главных правил

Пора выходить за рамки привычного

Playboy
Выпускают змей и устраивают дебоши: звезды, на которых жалуются соседи Выпускают змей и устраивают дебоши: звезды, на которых жалуются соседи

Талантливые творческие люди не всегда могут быть приятными в быту

Cosmopolitan
Что таит в себе водопроводная вода. Отрывок из книги американского биолога Что таит в себе водопроводная вода. Отрывок из книги американского биолога

Глава из книги Роба Данна «Не один дома»

СНОБ
Наталья Ветошникова Наталья Ветошникова

99-летняя теннисистка собрала все возможные трофеи Ленинграда

Собака.ru
Как перезапустить внутренний ресурс молодости, или что такое саногенез Как перезапустить внутренний ресурс молодости, или что такое саногенез

Уверена в неизбежности старения? Тогда тебя ждет сюрприз!

Cosmopolitan
Диета Магги: примеры рациона, результаты и противопоказания Диета Магги: примеры рациона, результаты и противопоказания

Диета Магги — что это такое, кому разрешена, а кому — запрещена

РБК
Почему ежегодную пресс-конференцию президента можно больше не смотреть Почему ежегодную пресс-конференцию президента можно больше не смотреть

Система перестала работать

СНОБ
Открыть в приложении