Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Элиа Сулейман — палестинский режиссер с мировым именем Элиа Сулейман — палестинский режиссер с мировым именем

У легендарного палестинского режиссера вышел новый фильм

GQ
Птицы научились зондировать субстрат клювом еще в эпоху динозавров Птицы научились зондировать субстрат клювом еще в эпоху динозавров

Древние птицы литорнитиды обладали чувствительными клювами, подобно киви

N+1
Токсичное пятно Токсичное пятно

В результате аварии на ТЭЦ «Норникеля» нефтепродукты растеклись по рекам

Forbes
«Дурная кровь» — новая книга Джоан Роулинг из цикла о детективе Корморане Страйке. Публикуем ее фрагмент «Дурная кровь» — новая книга Джоан Роулинг из цикла о детективе Корморане Страйке. Публикуем ее фрагмент

Отрывок из нового детективного романа Джоан Роулинг «Дурная кровь»

Esquire
Астрономы нашли солнечную радиовспышку у красного карлика Астрономы нашли солнечную радиовспышку у красного карлика

Между оптическими вспышками и радиовсплесками у красных карликов есть связь

N+1
Рестораны Рестораны

Гастрокритик Михаил Лопатин вспоминает главные ресторанные тренды Москвы 2000-х

Esquire
Билл Гейтс рекомендует: как талантливые дилетанты становятся победителями по жизни Билл Гейтс рекомендует: как талантливые дилетанты становятся победителями по жизни

Отрывок из книги Дэвида Эпштейна «Универсалы»

Forbes
3 простых способа повысить эмоциональный интеллект 3 простых способа повысить эмоциональный интеллект

Чем лучше вы понимаете свои и чужие эмоции, тем выше ваши шансы на успех

Inc.
Свой Монплезир Свой Монплезир

Дом с роскошным интерьером для приёма гостей и проведения торжеств

SALON-Interior
Атака этажерок-убийц. История первых самолетов-бомбардировщиков Атака этажерок-убийц. История первых самолетов-бомбардировщиков

История бомбардировщиков «Ильи Муромца» и «Цеппелин-Штаакена»

Maxim
Родительский контроль: стоит ли читать переписку ребенка? Родительский контроль: стоит ли читать переписку ребенка?

О чем говорит желание знать все о жизни своего ребенка?

Psychologies
Любимые рецепты Лали Чочия. Брауни полной луны Любимые рецепты Лали Чочия. Брауни полной луны

Готовим полезные брауни: с миндалем, овсянкой и шоколадом

Seasons of life
Когда грибы были большими Когда грибы были большими

В начале палеозойской эры на суше доминировали гигантские грибы

Популярная механика
В 70 лет я получила права и начала водить машину В 70 лет я получила права и начала водить машину

Наша героиня не побоялась в 62 года кардинально изменить свою жизнь

Psychologies
Почему соцсети становятся похожи друг на друга Почему соцсети становятся похожи друг на друга

Где есть лента с новыми постами, личные сообщения, прямые эфиры?

GQ
Сотворение миллиардера. Эссе Пола Грэма о том, как пройти интервью в Y Combinator и стать богатым Сотворение миллиардера. Эссе Пола Грэма о том, как пройти интервью в Y Combinator и стать богатым

Пол Грэм рассказывает о том, как устроиться в Y Combinator

Inc.
Александр Изряднов: Как бизнес использует нашу веру в героев Александр Изряднов: Как бизнес использует нашу веру в героев

Стив Джобс, Илон Маск — это качественные пиар-продукты, результат сложной работы

СНОБ
«Не обновляли со времен Горбачева». Иностранцы — о российских машинах «Не обновляли со времен Горбачева». Иностранцы — о российских машинах

Какие российские автомобили наделали много шума за рубежом

РБК
Джек Лондон. Камень, который отвергли строители Джек Лондон. Камень, который отвергли строители

Он уже и сам не знал, чего хочет больше — уснуть или умереть

Караван историй
Тея Обрехт: Без воды. Отрывок из романа Тея Обрехт: Без воды. Отрывок из романа

Отрывок из истории Лури, который исполняет желания призраков

СНОБ
Признаки беременности: как распознать их до задержки Признаки беременности: как распознать их до задержки

Какие бывают признаки беременности на ранних сроках?

Cosmopolitan
Цена счастья Цена счастья

За деньги счастье не купишь?

Robb Report
«Венгрия — это не только Будапешт» «Венгрия — это не только Будапешт»

Почему российские компании выбирают партнерство с Венгрией

РБК
Сексуальное насилие в Голливуде: самые громкие дела в истории «фабрики грез» Сексуальное насилие в Голливуде: самые громкие дела в истории «фабрики грез»

Сексуальные домогательства в Голливуде носят, похоже, массовый характер

Cosmopolitan
Как спасти семейные ценности Как спасти семейные ценности

Как после развода проводить время с детьми родителям «выходного дня»?

СНОБ
«Ее всё устраивает»: почему так сложно помогать жертвам домашнего насилия «Ее всё устраивает»: почему так сложно помогать жертвам домашнего насилия

Почему женщины, пострадавшие от домашнего насилия, часто отвергают помощь

Cosmopolitan
Скафандр для работы дома Скафандр для работы дома

Средство, которое по мнению Хьюго Гернсбека, поможет не отвлекаться от работы

Наука и жизнь
Задача с тремя известными Задача с тремя известными

Интервью с режиссером Анной Меликян

OK!
Честность и преданность, но без перфекционизма: как стать инфлюенсером для команды Честность и преданность, но без перфекционизма: как стать инфлюенсером для команды

Как помочь команде добиться большего, не прибегая к принуждению и манипуляциям

Forbes
Открыть в приложении