Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
В чем причина твоей бедности? Психолог объясняет, почему нам сложно разбогатеть В чем причина твоей бедности? Психолог объясняет, почему нам сложно разбогатеть

Что мешает нам быть богатыми?

Cosmopolitan
Почему отправлять готовые поздравления — не лучшая идея Почему отправлять готовые поздравления — не лучшая идея

Почему далеко не все рады готовым поздравлениям и стоит ли их посылать?

Psychologies
Если у ребенка аутизм: инструкция для родителей Если у ребенка аутизм: инструкция для родителей

Что делать родителям, если их ребенку диагностировали аутистическое расстройство

Psychologies
Новогодние фильмы: список лучших и небанальных картин для семейного праздника Новогодние фильмы: список лучших и небанальных картин для семейного праздника

Эти фильмы подарят вам праздничное настроение

Playboy
2000 год 2000 год

Отставка Бориса Ельцина, катастрофа подлодки «Курск», «Брат 2» и другие события

Esquire
Пандемия и страсть: как новый мир создает новый секс Пандемия и страсть: как новый мир создает новый секс

Секс-блогер Мария Чеснокова рассуждает о том, как изменилась секс-индустрия

Cosmopolitan
Карабас-Барабас и кукольная экономика: чем грозит миру нынешняя политика правительств и регуляторов Карабас-Барабас и кукольная экономика: чем грозит миру нынешняя политика правительств и регуляторов

Ликвидность и нулевые процентные ставки усугубляют перекосы в экономиках

Forbes
56 м² 56 м²

Дизайнеры создали атмосферу дачи в своей московской квартире

AD
Я к вам травою прорасту Я к вам травою прорасту

Как умереть, не нанося вред окружающей среде

Seasons of life
Пять вещей из киберпанка, которые считались фантастическими, но стали почти обыденностью Пять вещей из киберпанка, которые считались фантастическими, но стали почти обыденностью

Технологии из романов и фильмов в жанре киберпанка, которые доступны людям

Maxim
«Неизвестный порномагнат»: кто тайно владеет Pornhub, RedTube и YouPorn с общей выручкой $460 млн в год «Неизвестный порномагнат»: кто тайно владеет Pornhub, RedTube и YouPorn с общей выручкой $460 млн в год

По данным Financial Times, главными порносайтами мира управляет Бернард Бергемар

VC.RU
Почему именно эти видео попадаются вам в тиктоке Почему именно эти видео попадаются вам в тиктоке

Стоит признаться, что рекомендации в тиктоке – крайне компрометирующая вещь

GQ
Киригами помогло вырезать из нитрида кремния наноразмерные подвижные «лепестки» Киригами помогло вырезать из нитрида кремния наноразмерные подвижные «лепестки»

Новые наноразмерные структуры пригодятся в МЭМС-устройствах

N+1
Фантастические твари и где они обитают: как выглядит человек-иноагент Фантастические твари и где они обитают: как выглядит человек-иноагент

Почему власть чрезмерно реагирует на внешние угрозы?

Forbes
«На яркие эмоции денег вообще не жалко»: правила потребления сооснователя «Кухни на районе» Кирилла Родина «На яркие эмоции денег вообще не жалко»: правила потребления сооснователя «Кухни на районе» Кирилла Родина

Кирилл Родин рассказывает, почему стоит смотреть на покупки как на инвестиции

Forbes
Выдает желаемое! Выдает желаемое!

Яна Рудковская – человек безграничного оптимизма

Grazia
Главные книги 2020 года — по версии писателей, критиков и публицистов Главные книги 2020 года — по версии писателей, критиков и публицистов

О литературных впечатлениях 2020 года рассказали писатели, критики и публицисты

Esquire
Пол Томас Андерсон и Милла Иовович Пол Томас Андерсон и Милла Иовович

Пол Томас Андерсон и Милла Йовович – о фильме «Охотник на монстров»

Maxim
Последние слова заключенных перед смертной казнью Последние слова заключенных перед смертной казнью

Страшная тюремная энциклопедия из Техаса

Maxim
«Свято место пусто не бывает: история советского атеизма» «Свято место пусто не бывает: история советского атеизма»

Как и почему советская власть не смогла создать атеистическое общество

N+1
Ловить тренды и смеяться над собой: как бизнесу раскрутиться в TikTok Ловить тренды и смеяться над собой: как бизнесу раскрутиться в TikTok

Как бизнесмену зарабатывать в TikToke?

Forbes
Чем кормить волосы: что добавить в рацион, чтобы отрастить длину и обрести объем Чем кормить волосы: что добавить в рацион, чтобы отрастить длину и обрести объем

Нутрициолог - о том, как отрастить длинные и красивые волосы

Cosmopolitan
Лучшие зарубежные музыкальные альбомы 2020 года Лучшие зарубежные музыкальные альбомы 2020 года

Музыкальные альбомы, которые пробились сквозь информационный шум 2020 года

Esquire
Как просить подарки у Деда Мороза так, чтобы он тебе их точно подарил Как просить подарки у Деда Мороза так, чтобы он тебе их точно подарил

Полное пошаговое руководство по общению с Дедом Морозом для взрослых

Maxim
Отрывок из книги Александра Абалова и Владислава Иноземцева «Бесконечная империя» Отрывок из книги Александра Абалова и Владислава Иноземцева «Бесконечная империя»

Отрывок из книги «Бесконечная империя: Россия в поисках себя»

СНОБ
Яхты и жених старше отца: как живет племянница принцессы Дианы Китти Спенсер? Яхты и жених старше отца: как живет племянница принцессы Дианы Китти Спенсер?

Как живет племянница принцессы Дианы и двоюродная сестра принца Гарри

Cosmopolitan
38 м² 38 м²

Заказчик Наталии Литвин предпочел полноценную спальню гостиной

AD
Жизнь после МКС: куда летать космонавтам с 2025 года Жизнь после МКС: куда летать космонавтам с 2025 года

Давайте разберемся, действительно ли МКС разваливается

N+1
Признаки жизни Признаки жизни

Получим ли мы когда-нибудь доказательства существования внеземных организмов?

Вокруг света
Открыть в приложении