ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
«Со всем, что мы вытеснили, нам придется встретиться лицом к лицу» «Со всем, что мы вытеснили, нам придется встретиться лицом к лицу»

Василиса Кузьмина о байопике Ники Турбиной и конце девяностых

Weekend
Новые законы робототехники Новые законы робототехники

Должны ли роботы получить правовой статус электронных лиц?

Популярная механика
Возвращение королей. Ультралюкс из прошлого, возрожденный в наши дни Возвращение королей. Ультралюкс из прошлого, возрожденный в наши дни

Кто и зачем возвращает забытые супербренды Delage и Hispano-Suiza

РБК
Дзен, дизайн и гастрономия: что делать в Хельсинки этим летом Дзен, дизайн и гастрономия: что делать в Хельсинки этим летом

Проводим выходные в финской столице

РБК
Свет по шнурку. Оптоволокно – что такое, как работает и зачем нужно Свет по шнурку. Оптоволокно – что такое, как работает и зачем нужно

Как удалось передать свет по проводам, и почему именно свет?

Цифровой океан
Режим полета Режим полета

«Вокруг света» отправился в Оман

Вокруг света
Физики постримили игру с помощью ридберговских атомов Физики постримили игру с помощью ридберговских атомов

Американские физики использовали газ атомов в качестве приемной антенны

N+1
Освободите себя от ненужных споров Освободите себя от ненужных споров

8 правил деэскалации в общении

Reminder
Книги с захватывающим сюжетом: 5 историй о гонках, вoйне и нацистской Германии Книги с захватывающим сюжетом: 5 историй о гонках, вoйне и нацистской Германии

Подборка книг, сюжет которых не уступает лучшим триллерам в кино

TechInsider
Правила жизни Шер Правила жизни Шер

Шер. Певица и актриса. Вот правила ее жизни

Правила жизни
Диетолог из Гарварда назвала 5 видов продуктов, которые заставляют вас чувствовать себя уставшими и тревожными Диетолог из Гарварда назвала 5 видов продуктов, которые заставляют вас чувствовать себя уставшими и тревожными

Какие продукты могут вызвать тревогу и усталость

Inc.
Режиссер Яна Гладких о сериале Amore more Режиссер Яна Гладких о сериале Amore more

О консерватизме русской публики и поиске того, что делает человека счастливым

СНОБ
Персона Персона

О будущем B2B-сегмента в интернет-торговле

Robb Report
Вегетососудистая дистония и старческое слабоумие: 5 диагнозов, существующих только в России Вегетососудистая дистония и старческое слабоумие: 5 диагнозов, существующих только в России

В России до сих пор ставят диагнозы, которые не признают во всем остальном мире

Psychologies
Сгладить ситуацию Сгладить ситуацию

Причины появления растяжек на теле и как с ними бороться

Лиза
«Ну не меняться же мне из-за каждого идиота!»: крылатые фразы киногероев Олега Янковского, которые стыдно не знать «Ну не меняться же мне из-за каждого идиота!»: крылатые фразы киногероев Олега Янковского, которые стыдно не знать

Самые крылатые фразы киноперсонажей Олега Янковского

Maxim
Против ногтей, ресниц и брюк: как власти Туркменистана регулируют внешний вид женщин Против ногтей, ресниц и брюк: как власти Туркменистана регулируют внешний вид женщин

В Туркменистане — очередная волна запретов, касающихся внешнего вида женщин

Forbes
Александра Самохина. Две капли воды Александра Самохина. Две капли воды

Но я — это я, и у меня своя судьба...

Коллекция. Караван историй
«Продолжай, детка»: как TikTok Live стал «стрип-клубом с 15-летними подростками» «Продолжай, детка»: как TikTok Live стал «стрип-клубом с 15-летними подростками»

Почему TikTok все чаще оказывается в центре внимания правоохранителей

Forbes
Какая религия самая распространенная в мире: в это сложно поверить Какая религия самая распространенная в мире: в это сложно поверить

Какие из самых популярных верований являются наиболее распространенными в мире?

TechInsider
Профессор Эйнштейн. Распространённые ошибки его биографов Профессор Эйнштейн. Распространённые ошибки его биографов

Рассказывать о жизни Эйнштейна часто берутся люди, слабо знакомые с предметом

Наука и жизнь
Удовольствие для себя или польза для других: что мотивирует нас работать? Удовольствие для себя или польза для других: что мотивирует нас работать?

Что придает нашей деятельности смысл

Psychologies
Вот как сахар влияет на ваш мозг: последствия употребления «белого яда» Вот как сахар влияет на ваш мозг: последствия употребления «белого яда»

Белый яд: такое же прозвище справедливо дать и сахару. Вот почему

TechInsider
Идеология многонационального народа Идеология многонационального народа

Ценностные основы идеологии закреплены в обновленной Конституции России

Эксперт
Правила жизни Рами Малека Правила жизни Рами Малека

Как жил и живет актер Рами Малек

Правила жизни
Как однокурсник Марка Цукерберга строит глобальную фабрику стартапов Как однокурсник Марка Цукерберга строит глобальную фабрику стартапов

Antler — стартап-студия, инкубатор, акселератора и венчурной фирма

Forbes
Как Тесса Лау создала строительных роботов-помощников и привлекла $45 млн Как Тесса Лау создала строительных роботов-помощников и привлекла $45 млн

На создание компании Dusty Robotics Тессу Лау вдохновил ремонт в ее доме

Forbes
«Жена зависима от компьютерных игр и забывает о ребенке» «Жена зависима от компьютерных игр и забывает о ребенке»

Что делать, если у близкого человека игровая зависимость?

Psychologies
Бесчеловечный сервис Бесчеловечный сервис

Роботы в гостиницах — за и против

СНОБ
Открыть в приложении