Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Атака этажерок-убийц. История первых самолетов-бомбардировщиков Атака этажерок-убийц. История первых самолетов-бомбардировщиков

История бомбардировщиков «Ильи Муромца» и «Цеппелин-Штаакена»

Maxim
Элиа Сулейман — палестинский режиссер с мировым именем Элиа Сулейман — палестинский режиссер с мировым именем

У легендарного палестинского режиссера вышел новый фильм

GQ
Революция баров: как власти бесстрашно приняли вызов питерского общепита Революция баров: как власти бесстрашно приняли вызов питерского общепита

Это только кажется, что в стране остались деполитизированные сферы

Forbes
Электромобили от бывшего замминистра и платформа для «Содержанок»: кому дали денег больше всех в 2020 году Электромобили от бывшего замминистра и платформа для «Содержанок»: кому дали денег больше всех в 2020 году

Пять российских проектов, получивших максимальную сумму инвестиции в 2020 году

Forbes
Как медитация поможет спасти мир, а не только вас Как медитация поможет спасти мир, а не только вас

Эксперт осознанности о том, как найти баланс между внутренним и внешним мирами

GQ
Химики изготовили дешевый катализатор для производства углеводородов из углекислого газа Химики изготовили дешевый катализатор для производства углеводородов из углекислого газа

Основная особенность этого катализатора — баланс карбида и оксида железа

N+1
Как вежливо отказать: 9 советов, если ты хочешь сказать кому-то «нет» Как вежливо отказать: 9 советов, если ты хочешь сказать кому-то «нет»

Подборка советов, которые помогут научиться вежливо отказывать людям

Playboy
5 способов почувствовать себя значительным 5 способов почувствовать себя значительным

Время от времени каждый ощущает себя ничтожным и беспомощным

Psychologies
«Технологии должны облегчать жизнь человека, но ко многим процессам мы настолько привыкли, что и не думаем, что их можно как-то упростить» «Технологии должны облегчать жизнь человека, но ко многим процессам мы настолько привыкли, что и не думаем, что их можно как-то упростить»

Как работает погодное приложение, которое показывает прогноз погоды без цифр

Inc.
«Жадность правит миром». Как россиян обманывают в автосалонах «Жадность правит миром». Как россиян обманывают в автосалонах

Что нужно знать, чтобы не потерять деньги при покупке машины

РБК
Как правильно сообщать ученым о присуждении им Нобелевской премии Как правильно сообщать ученым о присуждении им Нобелевской премии

Как устроена работа нобелевского комитета

Esquire
Забытый автор памятника Екатерине II в Моршанске Забытый автор памятника Екатерине II в Моршанске

Кто же таинственный создатель моршанского бюста Екатерины II?

Наука и жизнь
От хорошего к великому От хорошего к великому

Почему одни компании совершают прорыв, а другие нет…

kiozk originals
Молочно-мясную диету Индской цивилизации восстановили по керамическим черепкам Молочно-мясную диету Индской цивилизации восстановили по керамическим черепкам

И горожане и деревенские индской цивилизации ели мясо и молочные продукты

N+1
Балетное дело Балетное дело

Людмила Ковалева крепко держит в руках традиции и будущее русского балета

Vogue
Европейцы отказали искусственному интеллекту в праве убивать людей Европейцы отказали искусственному интеллекту в праве убивать людей

Решение об использовании вооружения должен принимать человек

N+1
Юлия Снигирь: «Нужно ценить жизнь, момент «здесь и сейчас» Юлия Снигирь: «Нужно ценить жизнь, момент «здесь и сейчас»

Юлия Снигирь: о сериале «Пассажиры» и итогах года

Grazia
«Беременная гимназистка!»: Юрий Лоза высмеял «обидчивого» Басту «Беременная гимназистка!»: Юрий Лоза высмеял «обидчивого» Басту

Автор шлягера "Плот" раскритиковал наставника шоу "Голос"

Cosmopolitan
Подземная изоляция Подземная изоляция

Кроты настолько асоциальны, насколько это возможно для млекопитающих

Вокруг света
Портретная сходка Портретная сходка

О выставке «В круге Дягилевом» и о том, чем стал этот круг для русской культуры

Weekend
80 м² 80 м²

Екатерина Бегичева спроектировала квартиру для сына-диджея

AD
Астроном искал в реликтовом излучении следы послания от Создателя Вселенной — и кое-что нашел Астроном искал в реликтовом излучении следы послания от Создателя Вселенной — и кое-что нашел

Самое древнее излучение во Вселенной может быть "рекламным щитом"

Популярная механика
Вернуть себе амбициозность: как Тори Берч и Мина Харрис борются с неравенством в бизнесе Вернуть себе амбициозность: как Тори Берч и Мина Харрис борются с неравенством в бизнесе

Где предпринимательницам искать поддержку?

Forbes
Рейтинг брендов Рейтинг брендов

Новые марки, которые стали заметны на рынке за год

Forbes
Людей обвинили в гибели 75 процентов видов нелетающих птиц Людей обвинили в гибели 75 процентов видов нелетающих птиц

Если бы не человек, на Земле жило бы более двухсот видов нелетающих птиц

N+1
Как стать принцессой Как стать принцессой

Эмма Коррин – о роли принцессы Дианы в четвертом сезоне сериала «Корона»

Grazia
Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла

Фрагмент из нового романа Дэвида Митчелла «Утопия-авеню»

Esquire
Почему мы толстеем от диет? Почему мы толстеем от диет?

Неожиданные последствия нашей одержимости похудением

kiozk originals
В пять раз дороже за 10 лет: как выгодно инвестировать в молодых художников В пять раз дороже за 10 лет: как выгодно инвестировать в молодых художников

Анна Баринова рассказала, как выбирать работы молодых художников

Forbes
Открыть в приложении