Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Почему подход Waymo к автопилоту может оказаться надёжнее подхода Tesla Почему подход Waymo к автопилоту может оказаться надёжнее подхода Tesla

Чем примечателен подход Waymo к автономным такси?

VC.RU
25 типичных ошибок, которые каждый мужчина совершает снова и снова 25 типичных ошибок, которые каждый мужчина совершает снова и снова

Есть вещи, которые делать нельзя, но мы все равно делаем. И потом жалеем!

Maxim
Разгружаемся: похудеть без чувства голода Разгружаемся: похудеть без чувства голода

10 правил разгрузочного режима известного французского диетолога Жака Фрикер

Здоровье
Нейросеть GPT-3: «Роботы никогда не заменят потребность в людях» Нейросеть GPT-3: «Роботы никогда не заменят потребность в людях»

Собеседник РБК — третье поколение алгоритма по обработке естественного языка

РБК
Отрывок из автобиографии Майи Анджелу — великой темнокожей писательницы и соратницы Мартина Лютера Кинга Отрывок из автобиографии Майи Анджелу — великой темнокожей писательницы и соратницы Мартина Лютера Кинга

Фрагмент из книги Майи Анджелу «Поэтому птица в неволе поет»

Esquire
Искусство облачения капуцинов Искусство облачения капуцинов

Марина Прохорова об Artycapucines Collection 2020

Weekend
Одиночество разглядели в сети пассивного режима работы мозга Одиночество разглядели в сети пассивного режима работы мозга

У одиноких людей работа мозга отличается как структурно, так и функционально

N+1
Наращивание или ламинирование: какая процедура подойдет твоим ресницам Наращивание или ламинирование: какая процедура подойдет твоим ресницам

Рассказываем о последних тенденциях в «ресничном деле»

Cosmopolitan
App-ревью: лучшие приложения 2020 года по версии Playboy App-ревью: лучшие приложения 2020 года по версии Playboy

Самые оптимальные приложения-помощники на все случаи жизни

Playboy
Зачем Путин решил объявить выходным 31 декабря Зачем Путин решил объявить выходным 31 декабря

31 декабря, повсеместно объявляется выходным днем

СНОБ
Шесть миллионов видеороликов указали на универсальность эмоциональных реакций Шесть миллионов видеороликов указали на универсальность эмоциональных реакций

Ученые: около 70% эмоциональных реакций на определенные ситуации универсальны

N+1
Самый быстрый «единорог» в истории: сервис онлайн-мероприятий Hopin за год вырос с нуля до оценки в $2,1 млрд Самый быстрый «единорог» в истории: сервис онлайн-мероприятий Hopin за год вырос с нуля до оценки в $2,1 млрд

Выручка стартапа за полгода выросла в 50 раз — с $450 тысяч до $25 млн

VC.RU
5 практических советов альпиниста бизнесмену 5 практических советов альпиниста бизнесмену

Пять методов альпиниста, которые он использует в «критических точках жизни»

СНОБ
Легко не будет Легко не будет

Как построить бизнес, когда вопросов больше, чем ответов

kiozk originals
Ку-клукс-клан: 10 фактов о мужиках в простынях Ку-клукс-клан: 10 фактов о мужиках в простынях

Как появился и развивался Ку-клукс-клан

Maxim
Как заставить себя заниматься спортом: 12 советов, которые точно помогут Как заставить себя заниматься спортом: 12 советов, которые точно помогут

Подборка советов, которые помогут выработать привычку заниматься спортом

Playboy
Почему покушение на Навального касается всех нас Почему покушение на Навального касается всех нас

Те, кто по должности отвечает в России за порядок, на деле творят беззаконие

СНОБ
#улыбка #улыбка

Средства, которые заботятся о ваших зубах, а некоторые — еще и о нашей планете

Glamour
Фактор роста Фактор роста

Развеиваем мифы о длинных волосах и рассказываем, как правильно их отращивать

Glamour
«Спать вместе, но сугубо иронически»: отрывок из дебютного романа Салли Руни «Спать вместе, но сугубо иронически»: отрывок из дебютного романа Салли Руни

Фрагмент из дебютном романа Салли Руни о близости и дружбе

Forbes
Дай, Джим, на счастье лапу мне Дай, Джим, на счастье лапу мне

Истории о том, как дворняжки меняют мироощущения людей

Seasons of life
«Аэрокобра» Покрышкина: американская хищница для советских асов «Аэрокобра» Покрышкина: американская хищница для советских асов

История настоящей Бэллочки-людоедки

Maxim
Диета Магги: примеры рациона, результаты и противопоказания Диета Магги: примеры рациона, результаты и противопоказания

Диета Магги — что это такое, кому разрешена, а кому — запрещена

РБК
Цены возбуждающего характера: почему не следует разрушать рыночную экономику в угоду популизму Цены возбуждающего характера: почему не следует разрушать рыночную экономику в угоду популизму

Мы рискуем получить или дефицит, или ускоренный рост цен на другие товары

Forbes
Технологии будущего: как они преобразят жизнь человека в следующие несколько лет Технологии будущего: как они преобразят жизнь человека в следующие несколько лет

Как технологии будущего позволят человеку выйти за рамки тесной реальности

Forbes
Этого не хватало Этого не хватало

Можно ли с помощью добавок, кремов и процедур поддержать синтез коллагена

Glamour
Рома Зверь — про непротестный рок, надоевший рэп и зло из телевизора Рома Зверь — про непротестный рок, надоевший рэп и зло из телевизора

Вечно молодой группе «Звери» исполнилось 20 лет: интервью с ее лидером

РБК
Дарья Бобылева: Способы не попасть в ад. Отрывок из романа «Неучтенная планета» Дарья Бобылева: Способы не попасть в ад. Отрывок из романа «Неучтенная планета»

Отрывок из нового психотерапевтического романа Дарьи Бобылевой

СНОБ
Задача с тремя известными Задача с тремя известными

Интервью с режиссером Анной Меликян

OK!
Открыть в приложении