Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes

Актеры, для которых съемки в сценах с обнажением стали травмирующим опытом

Cosmopolitan
Потери сигнала в оптоволокне с полой сердцевиной приблизились к стандартным значениям Потери сигнала в оптоволокне с полой сердцевиной приблизились к стандартным значениям

Физики снизили затухание сигнала в оптических волокнах с полой сердцевиной

N+1
Отрывок из автобиографии Майи Анджелу — великой темнокожей писательницы и соратницы Мартина Лютера Кинга Отрывок из автобиографии Майи Анджелу — великой темнокожей писательницы и соратницы Мартина Лютера Кинга

Фрагмент из книги Майи Анджелу «Поэтому птица в неволе поет»

Esquire
История DeLorean: как инженер-плейбой разрушил свою автомобильную компанию — и вот уже 20 лет её пытаются возродить История DeLorean: как инженер-плейбой разрушил свою автомобильную компанию — и вот уже 20 лет её пытаются возродить

Джон Делореан руководил Pontiac, но не смог сохранить собственную компанию

VC.RU
Пайцза монгольских ханов Пайцза монгольских ханов

Пайцза — охранный «вездеход» монгольских чиновников

Дилетант
Ленивые тренировки Ленивые тренировки

Минусы и плюсы EMS-тренировок

Здоровье
Инфракрасная спектроскопия помогла алгоритму отличить человеческую кровь от животной Инфракрасная спектроскопия помогла алгоритму отличить человеческую кровь от животной

Химики разработали модель классификации крови человека и животных

N+1
Как погибают солдаты в российской армии Как погибают солдаты в российской армии

История гибели солдата Ярослава Лихаузова

СНОБ
Как материнство меняет мозг Как материнство меняет мозг

Как дети делают нас круче и умнее

Здоровье
3 научно-фантастических романа, нарушающих лунные законы NASA 3 научно-фантастических романа, нарушающих лунные законы NASA

Книги, в которых нарушается «Соглашение Артемиды»

Популярная механика
9 продуктов, которые только притворяются вегетарианскими 9 продуктов, которые только притворяются вегетарианскими

Даже еде в собственном холодильнике верить нельзя!

Maxim
29 лет назад прошла первая Gagarin Party. Манифест о рейве и искусстве (эксклюзив Esquire) 29 лет назад прошла первая Gagarin Party. Манифест о рейве и искусстве (эксклюзив Esquire)

Почему первым российским рейвам необходим статус искусства

Esquire
Палец в ране. Рассказ из книги Алана Черчесова «Клад» Палец в ране. Рассказ из книги Алана Черчесова «Клад»

Отрывок из сборника рассказов Алана Черчесова

СНОБ
Кислоты и холода: что российские клиенты ждут от рынка косметологии Кислоты и холода: что российские клиенты ждут от рынка косметологии

Какие бьюти-процедуры интересуют женщин и почему ботокс все еще популярен?

Forbes
Подлыжный корм: как выжить зимой в лесу без еды Подлыжный корм: как выжить зимой в лесу без еды

Любой дурак выживет в летнем лесу, а вот в зимнем — только отчаянные коммандос

Maxim
История вторая — развернутая История вторая — развернутая

В 2020 году я угодил в двойной капкан — глобальный карантин и личная безработица

Weekend
«Хочется поработать, поштурмить»: зачем и как приятели каждый год открывают магазин ёлок с оборотом в 15 млн рублей «Хочется поработать, поштурмить»: зачем и как приятели каждый год открывают магазин ёлок с оборотом в 15 млн рублей

Интернет-магазин хвойных деревьев, который работает раз в год

VC.RU
Главные правила контраварийного вождения Главные правила контраварийного вождения

Прокачай свои водительские навыки!

Maxim
Линии огня Линии огня

О важности выстраивания и защиты личных границ

Cosmopolitan
4 самые кровожадные женщины-маньячки в истории 4 самые кровожадные женщины-маньячки в истории

Мужчина-маньяк — это банально

Maxim
Как просить подарки у Деда Мороза так, чтобы он тебе их точно подарил Как просить подарки у Деда Мороза так, чтобы он тебе их точно подарил

Полное пошаговое руководство по общению с Дедом Морозом для взрослых

Maxim
Элизабет Дебики. Подарки судьбы Элизабет Дебики. Подарки судьбы

Ей было всего двадцать, когда один звонок изменил жизнь австралийской актрисы

Караван историй
Как видеоигры стали новым кино и теперь собираются стать новым IT Как видеоигры стали новым кино и теперь собираются стать новым IT

Как видеоигры будут менять в ближайшее время и на каких из них можно заработать

Forbes
Почему глава SoftBank Масаёси Сон — плохая ролевая модель для инвесторов Почему глава SoftBank Масаёси Сон — плохая ролевая модель для инвесторов

Как Масаёси Соне в своём стремлении быть венчурным капиталистом дошел до безумия

Inc.
Загадка Кипренского Загадка Кипренского

Александр Кибовский разбирается в творческом наследии Ореста Кипренского

Дилетант
Обзор игры Call of Duty: Black Ops Cold War Обзор игры Call of Duty: Black Ops Cold War

Black Ops Cold War — зрелищная одиночная кампания и плохой мультиплеер

CHIP
Бизнес в стиле хиппи: как построить в коммуне самый дорогой стартап в сфере воздушного электротакси Бизнес в стиле хиппи: как построить в коммуне самый дорогой стартап в сфере воздушного электротакси

Джобен Бевирт хочет создать авиатакси по цене UberX

Forbes
Если у ребенка аутизм: инструкция для родителей Если у ребенка аутизм: инструкция для родителей

Что делать родителям, если их ребенку диагностировали аутистическое расстройство

Psychologies
Топ-10 стран: большой вояж мечты Топ-10 стран: большой вояж мечты

Топ-10 лучших мест на планете-2021

Playboy
Открыть в приложении