Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Финансовый кризис? Как вместе с работой не потерять еще и девушку Финансовый кризис? Как вместе с работой не потерять еще и девушку

Как избежать скандалов из-за проблем с деньгами в этот безумный год

Maxim
35 м² 35 м²

Ангелина Бородкина задумала интерьер, сочетающийся с видом из окна

AD
Новогодние фильмы: список лучших и небанальных картин для семейного праздника Новогодние фильмы: список лучших и небанальных картин для семейного праздника

Эти фильмы подарят вам праздничное настроение

Playboy
Наталья Ветошникова Наталья Ветошникова

99-летняя теннисистка собрала все возможные трофеи Ленинграда

Собака.ru
Это не шутки! Как отличить юмор от насмешек и дать достойный ответ Это не шутки! Как отличить юмор от насмешек и дать достойный ответ

Юмор — отличное психологическое оружие

Cosmopolitan
Байки из дзота. Кто такие панфиловцы, от чего умер Гастелло и как звали Матросова Байки из дзота. Кто такие панфиловцы, от чего умер Гастелло и как звали Матросова

Подвиг их неизвестен, но имя их бессмертно!

Maxim
Возвращение Возвращение

Квартира в центре Санкт-Петербурга с атмосферой семейного быта прошлых веков

SALON-Interior
Праздничная хандра: что это такое и как ее избежать? Праздничная хандра: что это такое и как ее избежать?

Что нам грозит в ближайшие недели и как помочь себе пережить это время?

Psychologies
Каникулы без последствий Каникулы без последствий

Эксперты рассказывают, как лучше питаться в праздничные дни

Лиза
«Не обновляли со времен Горбачева». Иностранцы — о российских машинах «Не обновляли со времен Горбачева». Иностранцы — о российских машинах

Какие российские автомобили наделали много шума за рубежом

РБК
На небесной волне На небесной волне

Юркий и компактный максискутер от Suzuki

Мото
Новое счастье Новое счастье

Почему новая любовь никак не приходит?

Cosmopolitan
Как Гитлеру воду отключили: сага о том, как диверсанты лишили фашистов атомной бомбы Как Гитлеру воду отключили: сага о том, как диверсанты лишили фашистов атомной бомбы

Угроза уничтожения человечества, тайная операция, большой взрыв и даже Гитлер!

Maxim
Житие несвятого Диего: история невероятного успеха и падения в новом фильме про Марадону Житие несвятого Диего: история невероятного успеха и падения в новом фильме про Марадону

Документальный фильм о том, как мальчик из Буэнос-Айреса стал богом Неаполя

Forbes
Горизонтальные небоскрёбы над Бульварным кольцом: несбывшийся советский проект для центра Москвы Горизонтальные небоскрёбы над Бульварным кольцом: несбывшийся советский проект для центра Москвы

Авангардный художник Эль Лисицкий хотел превратить Москву в город будущего

VC.RU
10 мужских кухонных лайфхаков с овощечисткой 10 мужских кухонных лайфхаков с овощечисткой

Не спеши отказываться от удивительного кухонного инструмента овощечистки!

Maxim
Профессия - изобретать: как безумные идеи становятся инженерным продуктом Профессия - изобретать: как безумные идеи становятся инженерным продуктом

Мы пришли к конструкторам из «Карфидов Лаб» испытать пассивный экзоскелет

Популярная механика
Как в России избирают президента последние 30 лет Как в России избирают президента последние 30 лет

Как голосование в России за 30 лет вышло на поистине космический уровень

GQ
86 м² 86 м²

Вид на лесной массив в Покровском-Стрешневе соблазнил дизайнера Юлию Фаер

AD
77 м² 77 м²

Квартира в Казани, в которой сохранились исторические колонны

AD
3 даосские практики, которые помогут избежать новогоднего стресса 3 даосские практики, которые помогут избежать новогоднего стресса

Даосские практики против праздничного стресса: способы снять напряжение

Psychologies
Хотите перемен? Задайте себе «волшебный» вопрос Хотите перемен? Задайте себе «волшебный» вопрос

В чем ваша проблема? Что мешает вам получать удовольствие от жизни?

Psychologies
В команде с врагом В команде с врагом

Как работать с теми, кого вы недолюбливаете

kiozk originals
Кибербаг: как выход самой долгожданной игры года стал катастрофой для фанатов и инвесторов Кибербаг: как выход самой долгожданной игры года стал катастрофой для фанатов и инвесторов

Почему долгожданный релиз обернулся катастрофой для инвесторов и фанатов игр?

Forbes
«Женщина, на паровоз!» «Женщина, на паровоз!»

Женщины-машинисты электропоездов: история запретов и разрешений

Дилетант
Юлия Коричнева: Как научить детей самостоятельности Юлия Коричнева: Как научить детей самостоятельности

Как избежать инфантилизма

СНОБ
Гимн гипнозу. Как манипулировать девушками, клиентами и курицами Гимн гипнозу. Как манипулировать девушками, клиентами и курицами

Как работают секретные методики гипноза

Maxim
«Кровь, пот и слезы»: как вундеркинд, бросивший Стэнфорд, стал самым молодым миллиардером в мире «Кровь, пот и слезы»: как вундеркинд, бросивший Стэнфорд, стал самым молодым миллиардером в мире

Остин Расселл решил не тратить время на учебу — вместо этого он основал стартап

Forbes
Том Сзаки: «Хороших покупок не бывает» Том Сзаки: «Хороших покупок не бывает»

Почему любая покупка вредит природе

РБК
Открыть в приложении