Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
«Чемпионы соцсетей»: чем опасны для компаний популярные в TikTok сотрудники «Чемпионы соцсетей»: чем опасны для компаний популярные в TikTok сотрудники

Инфлюенсер в TikTok может как заменить отдел маркетинга, так и ударить по бренду

Forbes
Уроки латыни Уроки латыни

Демьян Кудрявцев, медиаменеджер и поэт, описывает Россию нулевых в стихах

Esquire
«Желание ребенка — закон?»: как правильно отказывать детям «Желание ребенка — закон?»: как правильно отказывать детям

«Мечтать не вредно», — в детстве мы часто слышали подобные фразы от родителей

Psychologies
Безопасно ли принимать витамины — врач рассказывает о последствиях Безопасно ли принимать витамины — врач рассказывает о последствиях

Чем грозит переизбыток витаминов и почему нельзя принимать их самостоятельно

Cosmopolitan
7 секретов стиля Грейс Келли, которые сделали ее модной иконой 7 секретов стиля Грейс Келли, которые сделали ее модной иконой

В чем секрет обворожительной Грейс Келли?

Cosmopolitan
Индустрия Индустрия

Генпродюсер канала «Пятница!» – о том, не напрасно ли мы прожили нулевые

Esquire
Психолог поискового отряда «Лиза Алерт»: «Мы должны понимать тех, кого ищем» Психолог поискового отряда «Лиза Алерт»: «Мы должны понимать тех, кого ищем»

Психолог из «Лиза Алерт» делится своей историей

Psychologies
72 м² 72 м²

Заказчица Екатерины Угловой решила не экономить на диване и кухне

AD
Океан лжи: загадочная история Nikola, которая хотела, но не смогла стать второй Tesla Океан лжи: загадочная история Nikola, которая хотела, но не смогла стать второй Tesla

История американского производителя экологичных грузовиков Nikola

Forbes
Зимние развлечения: советуют Толстой, Чайковский и Репин Зимние развлечения: советуют Толстой, Чайковский и Репин

Выбирайте зимний досуг по советам русских классиков

Культура.РФ
46 м² 46 м²

Квартира в оливковых и красных оттенках по проекту Татьяны Архиповой

AD
Все мимо Все мимо

Солистка группы Artik & Asti Аня вышла замуж!

OK!
История пятая — глобальная История пятая — глобальная

Чем человек отличается от дождевого червя

Weekend
P.S.: 2010 год P.S.: 2010 год

Нулевые, которые страна провела в офисах и клубах, закончились

Esquire
Пандемия и страсть: как новый мир создает новый секс Пандемия и страсть: как новый мир создает новый секс

Секс-блогер Мария Чеснокова рассуждает о том, как изменилась секс-индустрия

Cosmopolitan
Рентгеновские снимки Ника Визи: автобусы и трактора в рентгене Рентгеновские снимки Ника Визи: автобусы и трактора в рентгене

Фотограф Ник Визи превратил рентгеновские снимки в искусство

Популярная механика
38 м² 38 м²

Квартиру на Чистых прудах дизайнер Анна Кларк оформила для мамы

AD
Новогодняя прокрастинация: почему мы покупаем подарки в последнюю минуту Новогодняя прокрастинация: почему мы покупаем подарки в последнюю минуту

К какому типу прокрастинаторов вы относитесь?

Psychologies
Как одевается Вуди Аллен, чей самобытный стиль с годами не меняется — и остается актуальным Как одевается Вуди Аллен, чей самобытный стиль с годами не меняется — и остается актуальным

Вуди Аллен: широкие брюки, твидовые жакеты и другие элементы стиля

Esquire
Возвращение Возвращение

Квартира в центре Санкт-Петербурга с атмосферой семейного быта прошлых веков

SALON-Interior
Первопечатница Первопечатница

Валерия Роднянская взялась за концептуальное искусство

Tatler
Павианы научились ворчанию у соплеменников Павианы научились ворчанию у соплеменников

Социальная близость повлияла на издаваемые павианами звуки

N+1
Зоологи заявили об открытии нового вида клюворылых китов у берегов Мексики Зоологи заявили об открытии нового вида клюворылых китов у берегов Мексики

Его обнаружили у западного побережья Мексики

N+1
Американские ученые объяснили «гаванский синдром» микроволновым излучением Американские ученые объяснили «гаванский синдром» микроволновым излучением

Что такое «гаванский синдром» и из-за чего он возникает

N+1
Новый алгоритм DeepMind самостоятельно освоил игры Atari Новый алгоритм DeepMind самостоятельно освоил игры Atari

Алгоритм научился играть в го, шахматы и сёги

N+1
Живые клетки — химики Живые клетки — химики

Природные аналоги широко известных искусственных соединений

Наука и жизнь
Мистика и повседневность. Каким получился сериал «Перевал Дятлова» Мистика и повседневность. Каким получился сериал «Перевал Дятлова»

«Перевал Дятлова» — детектив о загадочной гибели туристов в 1959 года

РБК
88 м² 88 м²

Елена Симкина оформила квартиру для коллекционера работ Эрте

AD
Ночная жизнь Ночная жизнь

Синиша Лазаревич участвовал в знаковых для Москвы клубных проектах нулевых

Esquire
Открыть в приложении