ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Мяу по-русски Мяу по-русски

Налаживая связь с человеком, кошки изменили тональность мяуканья

Популярная механика
Институт особого назначения Институт особого назначения

Какими исследованиями занимается Институт истории естествознания и техники?

Знание – сила
Новые законы робототехники Новые законы робототехники

Должны ли роботы получить правовой статус электронных лиц?

Популярная механика
День открытых дверей День открытых дверей

Какими нестандартными решениями поражает электрический минивэн Zeekr Mix

Автопилот
Культурная нейронаука Культурная нейронаука

Как прогресс меняет нашу психику и мозг

Русский репортер
Первая наставница Первая наставница

Анжелика Балабанова: наставница Муссолини в самом начале пути к власти

Дилетант
Дзен, дизайн и гастрономия: что делать в Хельсинки этим летом Дзен, дизайн и гастрономия: что делать в Хельсинки этим летом

Проводим выходные в финской столице

РБК
«Бежевое родительство»: как соцсети навязывают «правильные» тренды в воспитании детей «Бежевое родительство»: как соцсети навязывают «правильные» тренды в воспитании детей

Почему просмотр материалов о воспитании детей в соцсетях может вызвать стресс?

Forbes
«О началах и концах света: Рождение и гибель мира в мифологии, религии и науке» «О началах и концах света: Рождение и гибель мира в мифологии, религии и науке»

Когда наш мир утонет в расплавленном металле

N+1
Быстро, удобно и вкусно Быстро, удобно и вкусно

Прогноз развития food-сегмента до 2030 года

Агроинвестор
Итальянцы будут в шоке: 10 самых необычных пицц, которые можно попробовать в разных уголках мира Итальянцы будут в шоке: 10 самых необычных пицц, которые можно попробовать в разных уголках мира

Странные начинки для пицц, которые можно встретить в разных заведениях мира

ТехИнсайдер
9 самых быстрых внедорожников AMG 2025 года 9 самых быстрых внедорожников AMG 2025 года

Внедорожники Mercedes-AMG, которые покорят вас своей максимальной скоростью

4x4 Club
Инвесторы здесь не ходят Инвесторы здесь не ходят

Абхазия: экономика и инвестиции

Монокль
Снежная красавица Снежная красавица

Какой уход требуется нашей коже зимой?

Лиза
Где есть и чем вдохновляться: художник Александр Сорокин — о любимых инклюзивных местах в Москве Где есть и чем вдохновляться: художник Александр Сорокин — о любимых инклюзивных местах в Москве

Художник Александр Сорокин — о любимых местах в Москве и кино

СНОБ
20 популярных вопросов о посудомоечных машинах 20 популярных вопросов о посудомоечных машинах

Гид по посудомоечным машинам: всё, что вы хотели бы спросить

CHIP
Трофеи Вьетконга Трофеи Вьетконга

Во время Вьетнамской войны почтовые марки выпускала не только Республика Вьетнам

Дилетант
«Хлеб и розы»: что афганские женщины рассказали в документальном фильме о своей жизни «Хлеб и розы»: что афганские женщины рассказали в документальном фильме о своей жизни

Как фильм «Хлеб и розы» помогает взглянуть на жизнь афганских женщин

Forbes
Царица наук… Царица наук…

Достижения российской астрономии за сто лет

Знание – сила
Три короны Возрождения: Данте, Петрарка, Боккаччо Три короны Возрождения: Данте, Петрарка, Боккаччо

Что мы знаем о трех родоначальниках Возрождения: Данте, Петрарке, Боккаччо?

Знание – сила
Проклятье малой серии Проклятье малой серии

Как российскому автопрому нарастить производство?

Монокль
Зарождение гидроавиации Зарождение гидроавиации

Как воплощали идею самолета, способного взлетать с водной поверхности

Знание – сила
Власть тайной азбуки Власть тайной азбуки

История развития криптографии

Знание – сила
Вечный фашизм Вечный фашизм

Предлагаем вниманию читателей знаменитое эссе писателя и философа Умберто Эко

Дилетант
У последнего редута У последнего редута

Бенито Муссолини закончил политическую карьеру главой марионеточного государства

Дилетант
Как помочь заскучавшему сотруднику и при чем здесь теория поколений Как помочь заскучавшему сотруднику и при чем здесь теория поколений

Как разжечь в сотруднике былой интерес к работе?

Forbes
Синдром Маугли: что это такое в психологии, признаки и лечение Синдром Маугли: что это такое в психологии, признаки и лечение

Что такое синдром Маугли и как он проявляется у детей?

Psychologies
Поэт Императорской гвардии Поэт Императорской гвардии

Поэты-эмигранты возвращались в Россию стихами. Но иным и того не довелось

Дилетант
Под знаком русской свастики Под знаком русской свастики

Иван Ильин печалился о том, что многое мешает развитию русского фашизма

Дилетант
«Доверие Александра Македонского к врачу Филиппу» «Доверие Александра Македонского к врачу Филиппу»

Во время похода в Персию Александр Ма­кедонский тяжело заболел

Дилетант
Открыть в приложении