Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Последние слова заключенных перед смертной казнью Последние слова заключенных перед смертной казнью

Страшная тюремная энциклопедия из Техаса

Maxim
Формула счастья Формула счастья

Квартира в современном стиле ар–деко для семейной пары

SALON-Interior
Когнитивные способности воронов оказались схожими с обезьяньими Когнитивные способности воронов оказались схожими с обезьяньими

Ученые выяснили, что вороны обладают высокоразвитыми когнитивными способностями

N+1
Эпоха радикальных перемен: автомобильные двигатели конца ХХ века Эпоха радикальных перемен: автомобильные двигатели конца ХХ века

К концу ХХ века в создании автомобильных двигателей внезапно назрела революция

Популярная механика
Искусственный интеллект перевел эту 350-страничную книгу всего за 40 секунд Искусственный интеллект перевел эту 350-страничную книгу всего за 40 секунд

Публикуем отрывок из труда Дэниела Сасскинда «Будущее без работы»

GQ
«Будущее без работы. Технологии, автоматизация и стоит ли их бояться» «Будущее без работы. Технологии, автоматизация и стоит ли их бояться»

Отрывок из книги «Будущее без работы», переведенной Яндекс.Переводчиком

N+1
«Ирония судьбы»: что говорят о фильме актеры спустя 45 лет? «Ирония судьбы»: что говорят о фильме актеры спустя 45 лет?

Что скрывается за всенародно любимым фильмом?

Cosmopolitan
Откуда берутся странные научные открытия, или как музыка может стать терапией и повышать иммунитет Откуда берутся странные научные открытия, или как музыка может стать терапией и повышать иммунитет

Отрывок из книги «Легко ли плыть в сиропе» о невероятных научных открытиях

Forbes
Красота против времени. Самые необычные кладбища автомобилей Красота против времени. Самые необычные кладбища автомобилей

Экзотические автомобили, сквозь которые прорастает природа

РБК
Что делать, если за стеной кого-то убивают: психолог — о помощи жертвам абьюза Что делать, если за стеной кого-то убивают: психолог — о помощи жертвам абьюза

Что делать стоит, а что – нет, если слышите признаки абьюза за стеной

Cosmopolitan
Новое счастье Новое счастье

Почему новая любовь никак не приходит?

Cosmopolitan
«Венгрия — это не только Будапешт» «Венгрия — это не только Будапешт»

Почему российские компании выбирают партнерство с Венгрией

РБК
Директор петербургского Манежа Павел Пригара — о свободе и реальности Директор петербургского Манежа Павел Пригара — о свободе и реальности

Директор Манежа о том, как музеям искать свое место в мире

РБК
На самоизоляции с крестным отцом Фрэнсисом Фордом Копполой На самоизоляции с крестным отцом Фрэнсисом Фордом Копполой

Каково это, на семь месяцев уединиться с легендарным режиссер и его семьей?

Esquire
Как сделать действительно крутого снеговика: снежный дьявол и еще четыре идеи Как сделать действительно крутого снеговика: снежный дьявол и еще четыре идеи

Стоит пройти снегопаду, и тысячи взрослых высыпают на улицы лепить снеговиков

Maxim
В Германии нашли окаменелости древнейшего питона В Германии нашли окаменелости древнейшего питона

Он жил 47,6 миллиона лет назад

N+1

Какое влияние смартфоны оказывают на наш внешний вид

Cosmopolitan
«‎На каждой странице я спрятал несколько разбросанных букв». Дэн Браун выпустил музыкальную книгу для детей, полную головоломок «‎На каждой странице я спрятал несколько разбросанных букв». Дэн Браун выпустил музыкальную книгу для детей, полную головоломок

Интервью с Дэном Брауном о новой книге «Звериная симфония»

СНОБ
Как изменились наши представления о комфорте? Объясняет Hyundai Elantra Как изменились наши представления о комфорте? Объясняет Hyundai Elantra

В XXI веке комфорт — это не плавность хода автомобиля

Maxim
Почему мы «заедаем» проблемы и как это прекратить? Почему мы «заедаем» проблемы и как это прекратить?

Еда — не лучший способ справляться с усталостью, болью, стрессом

Psychologies
Психолог поискового отряда «Лиза Алерт»: «Мы должны понимать тех, кого ищем» Психолог поискового отряда «Лиза Алерт»: «Мы должны понимать тех, кого ищем»

Психолог из «Лиза Алерт» делится своей историей

Psychologies
15 мыслей Алексея Мишина 15 мыслей Алексея Мишина

Профессор фигурного катания рассказал о новом ледниковом периоде

GQ
Реклама в СССР: как это было Реклама в СССР: как это было

Какой была советская реклама, и зачем она была нужна?

СНОБ
73 м² 73 м²

Дизайнеры бюро To Taste сделали в глубине квартиры антресоль

AD
Разумные сомнения. Как критическое мышление помогает распознавать дезинформацию и противостоять манипуляциям Разумные сомнения. Как критическое мышление помогает распознавать дезинформацию и противостоять манипуляциям

Как не попадаться на обман и манипуляции собственного мозга и других людей

РБК
Юрий Сапрыкин, Фонд «Сколково»: «Сегодня отношения сложные, завтра — не очень. Но бизнес есть бизнес» Юрий Сапрыкин, Фонд «Сколково»: «Сегодня отношения сложные, завтра — не очень. Но бизнес есть бизнес»

Юрий Сапрыкин из «Сколково» о том, в чем заинтересованы иностранные компании

Inc.
Чай пуэр: как правильно заваривать и чем может быть полезен китайский напиток Чай пуэр: как правильно заваривать и чем может быть полезен китайский напиток

Потенциальные польза и вред чая пуэр, способы его заварки

Playboy
Джоуи Де Майо Джоуи Де Майо

Поспешили поговорить с Джоуи Де Майо, пока валькирии не забрали его в Вальгаллу

Maxim
Когда в России состоялся первый концерт классической музыки? Когда в России состоялся первый концерт классической музыки?

Концертная жизнь в России началась с открытия Филармонического общества

Культура.РФ
Открыть в приложении