Алгоритм переводит дореволюционные издания в современный русский язык

Популярная механикаHi-Tech

В России создали алгоритм для перевода старой орфографии в современную

Сотрудники Института вычислительных технологий СО РАН разработали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию практически без участия человека. Алгоритм может выполнять рутинную работу редакторов и дает исследователям дополнительные инструменты для анализа текстов.

Василий Макаров

Представьте, что вы решили оцифровать, а затем опубликовать книгу, которая была издана в дореволюционное время. Новейшие мощные сканеры, способные работать без участия человека, сами перелистывают страницы, современное программное обеспечение преобразовывает отсканированные страницы в текст, но он будет, естественно, в исходной старой орфографии. Это неудобно для потенциальной обработки документа, ведь большинство алгоритмов автоматического анализа работают только с произведениями в современной орфографии. Для этого и нужна система автоматического приведения текста в привычный для читателя вид. Существует несколько подходов к преобразованию текстов из одной орфографии в другую: основанный на правилах, статистический, основанный на машинном обучении, нейронный машинный перевод, а также гибридный, который может сочетать перечисленные выше методы. Так как орфография — это совокупность четких правил написания слов, на основе которых может быть создан алгоритм перевода, исследователи выбрали правиловый подход. Всё усложняется тем, что до середины XX века орфография русского языка не была официально утверждена. «До революции появлялись орфографические справочники, на их основании писались гимназические грамматики, но нормы не были кодифицированы. Декрет Совета народных комиссаров от 10 октября 1918 года «О введении новой орфографии» был весьма краток, и описывал то, что требует изменения, далеко не полностью. Например, вышло так, что ижица (Ѵ) вообще не была упомянута», — рассказывает ведущий научный сотрудник ИВТ СО РАН доктор технических наук Владимир Борисович Барахнин.

Примеры основных правил, заложенных в работу переводчика. Мария Фёдорова

Для разработки программы за основу был взят «Справочник по старой орфографии русского языка» П. И. Давыдова, изучившего и проанализировавшего значительное количество источников и литературы, в том числе учебники, словари и справочники, изданные в старой орфографии до 1917 года. В этом справочнике изложен ряд изменений, которые можно разделить на две большие категории: правописание морфем (приставок, падежных окончаний) и употребление отдельных букв. Кто-то может предположить, что достаточно заменить устаревшие буквы на современные и убрать твердые знаки в конце слов, но всё гораздо сложнее, потому что есть случаи, в которых правописание морфем отличается от нынешнего. Именно на основе перечисленных в справочнике норм дореволюционного правописания — с учетом послереволюционных новаций и был разработан переводчик.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Используй ложку и телефон: 20 способов доставить себе удовольствие Используй ложку и телефон: 20 способов доставить себе удовольствие

Двадцать разных способов мастурбации на любой вкус и цвет

Cosmopolitan
Платье-торт и не только: самые безвкусные свадебные наряды королевских особ Платье-торт и не только: самые безвкусные свадебные наряды королевских особ

Принцессы, которым не удалось поразить своих подданных чувством стиля

Cosmopolitan
Ричард Престон: Эпидемия. Отрывок из книги Ричард Престон: Эпидемия. Отрывок из книги

Автор рассказывает, что пережили люди, изучающие вирус Эбола

СНОБ
На счастье На счастье

Модный и уютный интерьер в светлых тонах с яркими акцентами

SALON-Interior
«Ее имя у всех на устах» «Ее имя у всех на устах»

О проекте ZIVERT громко заговорили в конце 2018 года, когда вышел трек Life

OK!
Как выйти из созависимых отношений: 7 шагов к здоровому союзу Как выйти из созависимых отношений: 7 шагов к здоровому союзу

Как понять, что у тебя нездоровая привязанность, и выйти из таких отношений?

Playboy
Западные равнинные гориллы поделили территорию без кровавых конфликтов Западные равнинные гориллы поделили территорию без кровавых конфликтов

Равнинные гориллы избегают решать территориальные конфликты драками

N+1
Почему Россия начала ценовую войну на нефтяном рынке Почему Россия начала ценовую войну на нефтяном рынке

Теперь Россия попробует перенять роль у Штатов — со всеми понятными рисками

РБК
Российские биофизики предложили получать полимерно-белковые полотна электропрядением Российские биофизики предложили получать полимерно-белковые полотна электропрядением

Российские ученые разработали способ производства полимерно-белковых полотен

N+1
Летось Летось

Только когда же это было, «летось»? Слово это встречается во множестве говоров

Наука и жизнь
Cостояние фрустрации: что это такое, а также 6 советов, как с этим справиться Cостояние фрустрации: что это такое, а также 6 советов, как с этим справиться

Мы все время от времени сталкиваемся с фрустрацией

Playboy
В Англии нашли сотни старинных бутылок с отравленным пивом В Англии нашли сотни старинных бутылок с отравленным пивом

Археологи обнаружили бутылки пива XIX века

National Geographic
Венскую конвенцию попросили из-за руля Венскую конвенцию попросили из-за руля

Действие международных соглашений о дорожном движении могут приостановить

РБК
Трагедия Эйнштейна, или счастливый Сизиф Трагедия Эйнштейна, или счастливый Сизиф

Очерк третий. Эйнштейн в Америке

Наука и жизнь
Страх и ненависть на дороге: 13 самых несимпатичных автомобилей Страх и ненависть на дороге: 13 самых несимпатичных автомобилей

История знает немало откровенно специфических на вид машин

Популярная механика
«Душа моя утомлена. Скучно»: Пушкин, Чехов, Гоголь и другие русские классики — о карантине «Душа моя утомлена. Скучно»: Пушкин, Чехов, Гоголь и другие русские классики — о карантине

Письма классиков — пример, как проводить карантин не без некоторого удовольствия

Esquire
Девон, Англия Девон, Англия

Теперь в этих топях заброшенный эльфийский лес

Maxim
10 отличных сериалов на Netflix для запойного просмотра 10 отличных сериалов на Netflix для запойного просмотра

Пришло время посмотреть все сериалы, которые пылились в списке must-see

Esquire
А компот? Чем кормят в тюрьмах США и России А компот? Чем кормят в тюрьмах США и России

Если человек не получает свою суточную дозу калорий, то это медленно его убивает

Популярная механика
Обыкновенные вампиры подружились по-человечески Обыкновенные вампиры подружились по-человечески

Начали с простого и малозатратного знакомства, а потом перешли к делению едой

N+1
Бедным хочется купить, обеспеченным — получить удовольствие Бедным хочется купить, обеспеченным — получить удовольствие

В России начал формироваться рынок аренды вещей на базе новых онлайн-платформ

Эксперт
Российский бизнес задает TON Российский бизнес задает TON

Опубликован список инвесторов блокчейн-платформы Павла Дурова

РБК
Талибы одержали первую дипломатическую победу Талибы одержали первую дипломатическую победу

Вашингтон и представители «Талибана» заключили сделку

РБК
Трижды R Трижды R

«Хонда» подготовила для нас что-то действительно новое

Мото
Учителя йоги: система ценностей Учителя йоги: система ценностей

Опытные мастера рассказывают о своих правилах жизни

Yoga Journal
Минфин зафиксировал льготу Минфин зафиксировал льготу

Почему ведомство Антона Силуанова готово изменить схему налогового вычета

РБК
Разговор на чистоту Разговор на чистоту

Важные вопросы по очищению кожи лица

Yoga Journal
Музыкальная пауза Музыкальная пауза

Середина весны – лучшее время, чтобы провести уик-энд в Вене

Grazia
10 лучших розыгрышей XX века 10 лучших розыгрышей XX века

Розыгрыши, которые вошли в историю

Maxim
Чек-лист: 8 полезных привычек тех, кто никогда не болеет Чек-лист: 8 полезных привычек тех, кто никогда не болеет

Секреты богатырского здоровья или вся тайна в здоровых привычках

Cosmopolitan
Открыть в приложении