Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
60 м² 60 м²

Дизайнер Кирилл Карпунин превратил советскую двушку в единое пространство

AD
Никита Кукушкин и Леонид Парфенов — о благотворительности, сочувствии и любви к людям Никита Кукушкин и Леонид Парфенов — о благотворительности, сочувствии и любви к людям

10 вопросов Леониду Парфенову и Никите Кукушкину — любви, эмпатии и сочувствии

Esquire
Джордж Клуни смотрится жутко привлекательно и выразительно в фильме «Полночное небо» Джордж Клуни смотрится жутко привлекательно и выразительно в фильме «Полночное небо»

Джорджу Клуни абсолютно нечего делать в космосе

GQ
Как стать счастливее? Научный подход Как стать счастливее? Научный подход

Врач — о небольших шагах, которые помогут увеличить удовольствие от жизни

Reminder
Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла

Фрагмент из нового романа Дэвида Митчелла «Утопия-авеню»

Esquire
Пангасиус Пангасиус

Пангасиус – идеальная рыба для тех, кто худеет

Худеем правильно
Папа может всё что угодно: 6 мифов об отцовском декрете Папа может всё что угодно: 6 мифов об отцовском декрете

Почему так непопулярен отцовский декрет в нашей стране?

Cosmopolitan
Когда в России состоялся первый концерт классической музыки? Когда в России состоялся первый концерт классической музыки?

Концертная жизнь в России началась с открытия Филармонического общества

Культура.РФ
Кислоты и холода: что российские клиенты ждут от рынка косметологии Кислоты и холода: что российские клиенты ждут от рынка косметологии

Какие бьюти-процедуры интересуют женщин и почему ботокс все еще популярен?

Forbes
Почему мы «заедаем» проблемы и как это прекратить? Почему мы «заедаем» проблемы и как это прекратить?

Еда — не лучший способ справляться с усталостью, болью, стрессом

Psychologies
Зачем Путин решил объявить выходным 31 декабря Зачем Путин решил объявить выходным 31 декабря

31 декабря, повсеместно объявляется выходным днем

СНОБ
Одураченные случайностью Одураченные случайностью

О скрытой роли шанса в бизнесе и в жизни

kiozk originals
Правила жизни Пьера Кардена Правила жизни Пьера Кардена

Правила жизни французского модельера и бизнесмена Пьера Кардена

Esquire
Почему «невидимые» самолеты, на самом деле, видны на радарах и зачем тогда этот «стэлс» Почему «невидимые» самолеты, на самом деле, видны на радарах и зачем тогда этот «стэлс»

Вокруг термина «стэлс» много мифов, поэтому давайте разберемся

Naked Science
DART –  самоубийственная миссия к двойному астероиду DART –  самоубийственная миссия к двойному астероиду

Сможем ли мы изменить орбиту небесного тела, движущегося к Земле?

Naked Science
Как записать подкаст дома Как записать подкаст дома

На случай, если в новом году вы захотите стать звездой собственного аудио-шоу

GQ
Как обсуждать разногласия, не ссорясь. Дипак Чопра дал 5 эффективных советов Как обсуждать разногласия, не ссорясь. Дипак Чопра дал 5 эффективных советов

Как выйти победителем из любых переговоров

Inc.
Актриса Валентина Талызина — о работе над «Иронией судьбы» Актриса Валентина Талызина — о работе над «Иронией судьбы»

Валентина Талызина сыграла в главном новогоднем фильме сразу две роли

Esquire
Что будет, если съесть самую острую еду в мире Что будет, если съесть самую острую еду в мире

Самая острая еда в мире и что будет, если неподготовленный человек съест ее

Популярная механика
Стоит ли покупать видеокарты на вторичке: плюсы и минусы Стоит ли покупать видеокарты на вторичке: плюсы и минусы

Сэкономить или же переплатить за гарантированно работоспособную видеокарту?

CHIP
Все наследство псу под хвост: самые странные пункты из завещаний звезд Все наследство псу под хвост: самые странные пункты из завещаний звезд

Звезды отличаются оригинальностью даже в своих завещаниях

Cosmopolitan
Первые строчки Billboard и продюсер-миллиардер: группа BTS в цифрах Первые строчки Billboard и продюсер-миллиардер: группа BTS в цифрах

K-pop-группа BTS бьет рекорд за рекордом

РБК
Все о прокрастинации, или Как перестать откладывать важные дела на потом Все о прокрастинации, или Как перестать откладывать важные дела на потом

Специалисты объясняют, из-за чего люди прокрастинируют и как от этого избавиться

Maxim
5 идей, как улучшить отношения с самим собой 5 идей, как улучшить отношения с самим собой

Чем крепче наша дружба с собой, тем легче нам общаться с другими

Psychologies
«Поначалу с мужчинами играть было трудно»: первая женщина-гроссмейстер Нона Гаприндашвили — о жизни шахматисток и сериале «Ход королевы» «Поначалу с мужчинами играть было трудно»: первая женщина-гроссмейстер Нона Гаприндашвили — о жизни шахматисток и сериале «Ход королевы»

Интервью с первой женщиной-гроссмейстером Ноной Гаприндашвили

Forbes
Почему мы сближаемся с мужчинами, которые причиняют боль? Почему мы сближаемся с мужчинами, которые причиняют боль?

Каких партнеров вы выбираете и почему?

Psychologies
Как распознать самообман: 7 типичных ситуаций Как распознать самообман: 7 типичных ситуаций

Философ Ален де Боттон — о том, как привычка лгать себе осложняет нам жизнь

Reminder
Живая соль Живая соль

Чем богаты розовые озера Крыма

Огонёк
Что можно мыть в посудомоечной машине: ответы на популярные вопросы Что можно мыть в посудомоечной машине: ответы на популярные вопросы

Какую посуду можно мыть в посудомоечной машине, а что лучше оставить в раковине

CHIP
Открыть в приложении