ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Геолог на Марсе Геолог на Марсе

Каково работать бок о бок с Curiosity в марсианской пустыне

Популярная механика
Опять и опять «Назад в будущее» Опять и опять «Назад в будущее»

Краткая история ленты «Назад в будущее», вырастившей последнее поколение XX века

Weekend
И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
Дейнотерий – слон с берегов Дона Дейнотерий – слон с берегов Дона

Слоны – одни из самых стабильных в эволюционном плане животных...

Наука и техника
Как спровоцировать девушку на ролевые игры Как спровоцировать девушку на ролевые игры

Простой рецепт от Agent Provocateur, как провести все выходные в постели

GQ
10 неожиданных вопросов Кате Гусевой 10 неожиданных вопросов Кате Гусевой

Расспросили королеву ремиксов Катю Гусеву о вере в приметы и любви к собакам

VOICE
Правила здорового сна: уберите от кровати гаджеты и яблоки Правила здорового сна: уберите от кровати гаджеты и яблоки

Удается ли вам спать достаточное количество часов?

Psychologies
Через санкции к росту Через санкции к росту

Как российская экономика ищет способы сотрудничества с глобальными игроками

Эксперт
Есть ли у Европы армия Есть ли у Европы армия

О потенциале собственной армии Евросоюза и перспективах ее участия вне НАТО

Монокль
Рабби Давид из люфтваффе Рабби Давид из люфтваффе

В 2019 году Бундестаг одобрил введение в Германии военного раввината

Дилетант
«Мы уже не живем в своей колыбели» «Мы уже не живем в своей колыбели»

Чем дышит и живет Институт космических исследований РАН?

Знание – сила
Золотой век английской карикатуры Золотой век английской карикатуры

«Отечество карикатуры и пародии» — об Англии Георгианской эпохи

Дилетант
Музей как увлечение Музей как увлечение

Единственный в своем роде: музей при Институте космических исследований РАН

Знание – сила
Сеньоры на потоке Сеньоры на потоке

Зачем Минцифры запускает новые программы подготовки IT-кадров

Ведомости
«Пишите… А. Куприн» «Пишите… А. Куприн»

Эмиграция сложилась для Куприна не просто трудно, а скорее — трагически

Дилетант
Американские горки Американские горки

Группа БКС возобновила торги американскими бумагами через свой инвестбанк

Ведомости
Архив богини Фауны Архив богини Фауны

Зоологический музей Московского университета – «отражение самой природы»

Знание – сила
Что следует знать начинающему инвестору Что следует знать начинающему инвестору

Что надо знать, когда планируете начать инвестировать?

Наука и техника
Как Ленин дэвов побеждал Как Ленин дэвов побеждал

Какие отпечатки оставили на народах России события на рубеже XIX и XX веков

Дилетант
Кто открыл лазейки в вузы Кто открыл лазейки в вузы

Школьные олимпиады становятся местом отработки способов незаконного поступления

Монокль
Пустые кресла и забытые письма: одиночество как экспонат Пустые кресла и забытые письма: одиночество как экспонат

Мы приезжаем в музей смотреть не на экспонаты, а внутрь себя

Знание – сила
Установка для очистки отработанных масел УОМ-3М(100) Установка для очистки отработанных масел УОМ-3М(100)

Как установка УОМ-3М(100) очищает отработанное моторное масло

Наука и техника
О пользе «бумажной волокиты» О пользе «бумажной волокиты»

На каком языке говорили евреи, вернувшиеся из вавилонского пленения?

Знание – сила
Главное – остаться незамеченным Главное – остаться незамеченным

В чем состоит военная (а возможно, и не только) хитрость стелс-технологии?

Наука и техника
Скелетные мышцы самолета – система управления Скелетные мышцы самолета – система управления

Зачем самолетам демпферы, гидроусилители, закрылки и предкрылки?

Наука и техника
Мошенники делают ставки Мошенники делают ставки

Как мошенники используют аккаунты граждан в букмекерских конторах

Ведомости
Вяземские Вяземские

Происходивший от Рюрика княжеский род Вяземских известен ещё со Средневековья

Дилетант
Карманные мозги, что управляют всем: микроконтроллеры от первых 4-бит до IoT-революции Карманные мозги, что управляют всем: микроконтроллеры от первых 4-бит до IoT-революции

История микроконтроллеров от их зарождения до современных тенденций

Наука и техника
Эра литий-ионных аккумуляторов Эра литий-ионных аккумуляторов

Почему ученые трудятся над тем, чтобы повысить безопасность батареек

Наука и техника
Дорогой инноваций Дорогой инноваций

Что изменит высокоскоростная магистраль Москва — Санкт-Петербург

Эксперт
Открыть в приложении