ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Время людей Время людей

Антропоцен – время, когда человек оказывает глобальное влияние на всю планету

Популярная механика
Возвращение к истокам Возвращение к истокам

Бизнес-седан Audi A6: классика и одновременно статус

Автопилот
И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
Почему мы тянем время, даже когда знаем, что надо уйти? О токсичных отношениях и ловушках сознания Почему мы тянем время, даже когда знаем, что надо уйти? О токсичных отношениях и ловушках сознания

Почему же так сложно выйти из замкнутого круга токсичных отношений?

VOICE
Наполеон Орлёнок: прерванный полёт Наполеон Орлёнок: прерванный полёт

В 1811 году у Наполеона Бонапарта родился долгожданный наследник

Дилетант
Когда медицина перестает быть бумажной: как Москва лечит людей и спасает деревья Когда медицина перестает быть бумажной: как Москва лечит людей и спасает деревья

Как электронная медицина спасает сотни деревьев?

Правила жизни
Сколько можно спать? Сколько можно спать?

Еще несколько сотен лет назад европейцы спали дважды за сутки

Популярная механика
Телефонная пиратка и домохозяйка-разведчица: пять женщин, которые ломали систему Телефонная пиратка и домохозяйка-разведчица: пять женщин, которые ломали систему

Героини, которые давали фору хакерам-мужчинам

Forbes
Зерно тщеславия Зерно тщеславия

Как провалились американские санкции против СССР

Деньги
Тревожное исследование: ChatGPT убивает наше критическое мышление Тревожное исследование: ChatGPT убивает наше критическое мышление

Чем чрезмерное использование нейросетей крайне вредно для нашего мозга

ТехИнсайдер
Эдуард Илоян: Рынок может сам себя отрегулировать Эдуард Илоян: Рынок может сам себя отрегулировать

Генпродюсер YBW — о будущем «Папиных дочек» и стратегии компании

Ведомости
«Музей языков: Конрад Гесснер и книги-полиглоты XVI века» «Музей языков: Конрад Гесснер и книги-полиглоты XVI века»

Как иезуиты помогли изучению неевропейских языков

N+1
Типы матриц телевизоров: выбираем лучшую Типы матриц телевизоров: выбираем лучшую

Матрицы телевизоров: как в них не запутаться и какой тип выбрать?

CHIP
Город, который дает то, что нужно Город, который дает то, что нужно

Размышления москвича Григория Туманова о магии Петербурга

СНОБ
Как превратить посуточную аренду загородного дома в доходный бизнес Как превратить посуточную аренду загородного дома в доходный бизнес

Посуточная сдача загородного дома: как запустить и развивать такой бизнес?

Inc.
Смерть им к лицу Смерть им к лицу

Вышел жизнеутверждающий комедийный сериал «Вверх дном: хаос на кладбище»

Weekend
Способ приготовления кофе влияет на продолжительность вашей жизни Способ приготовления кофе влияет на продолжительность вашей жизни

Какой способ приготовления кофе сохраняет защитные эффекты напитка?

ТехИнсайдер
А это прилично? А это прилично?

Как соблюдать правила приличия в отпуске

Grazia
Кадровиков много, а пользы — мало: 5 неочевидных ошибок в HR, которые могут стоить вам сотрудников Кадровиков много, а пользы — мало: 5 неочевидных ошибок в HR, которые могут стоить вам сотрудников

О главных ошибках, которые допускает бизнес в работе с кадрами

Inc.
Мусорная река в Китае и спасение тюленей: как пластиковые отходы загрязняют планету Мусорная река в Китае и спасение тюленей: как пластиковые отходы загрязняют планету

Самые впечатляющие свидетельства загрязнения окружающей среды

Forbes
Китайская оценка Китайская оценка

«Русал» получил третий китайский рейтинг в этом году

Ведомости
Иван Бунин оправдывается… Иван Бунин оправдывается…

Жизнь в эмиграции всегда не проста, часто эмигрантам приходится объединяться

Дилетант
Время Офелии: как драматическое искусство рассказывает истории о женщинах Время Офелии: как драматическое искусство рассказывает истории о женщинах

На европейской сцене воплощением женского тренда стала шекспировская Офелия

Forbes
Где есть Где есть

Где и чем вкусно кормят в Петербурге

СНОБ
Нет денег – нет детей Нет денег – нет детей

Почему продолжается снижение уровня рождаемости в мире?

Ведомости
Издержки профессии: почему у гонщиков Формулы-1 такие большие шеи Издержки профессии: почему у гонщиков Формулы-1 такие большие шеи

Гонщик Формулы-1 — не просто водитель, он настоящий спортсмен

ТехИнсайдер
Место в топе Место в топе

Самый обсуждаемый дебют BMW на Concorso d’Eleganza — концепт-кар Speedtop

Автопилот
Стандартная модель устояла под натиском измерений Стандартная модель устояла под натиском измерений

Итоги грандиозного международного эксперимента Muon g-2

Монокль
Стройка с федеральным размахом: ТОП-20 застройщиков, реализующих проекты за пределами домашнего региона Стройка с федеральным размахом: ТОП-20 застройщиков, реализующих проекты за пределами домашнего региона

Рэнкинг застройщиков, вышедших из домашних регионов на федеральный уровень

ФедералПресс
«Кто богат детьми, богат и любовью, а любовь всего светлее»: Н.М. Карамзин – отец семейства «Кто богат детьми, богат и любовью, а любовь всего светлее»: Н.М. Карамзин – отец семейства

Николай Карамзин известен как «первый наш историк и последний летописец»

Знание – сила
Открыть в приложении