ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
Переходим на летнее время Переходим на летнее время

7 актуальных задач, которые легче решить под ярким солнцем

Лиза
Время людей Время людей

Антропоцен – время, когда человек оказывает глобальное влияние на всю планету

Популярная механика
Самый секретный агент Самый секретный агент

Из чего сделан мир Джеймса Бонда Яна Флеминга

Weekend
Огненный пульс Огненный пульс

Летательные аппараты с пульсирующим воздушно-реактивным двигателем

Популярная механика
Жаркое лето в Сибири Жаркое лето в Сибири

Природный отдых у города: почему стоит поехать в Новосибирск летом

Отдых в России
Как сделать боевого робота Как сделать боевого робота

Знакомьтесь: Shelby. Флиппер, потомок Бронтозавра

Популярная механика
«Нет удержу!» Чем улыбнул первый тест-драйв «ушастого Запорожца», проведенный советским журналистом «Нет удержу!» Чем улыбнул первый тест-драйв «ушастого Запорожца», проведенный советским журналистом

«Ушастый Запорожец» — тесный, шумный, тихоходный или совсем иной?

ТехИнсайдер
Любовь, сбивающая с ног: 10 культовых фильмов про свадьбы Любовь, сбивающая с ног: 10 культовых фильмов про свадьбы

Фильмы о свадьбе, которые заставят вас смеяться и плакать

Правила жизни
Развод и утрата: как справиться с последствиями Развод и утрата: как справиться с последствиями

Как утрата влияет на наше психологическое состояние?

VOICE
Финкульт-привет Финкульт-привет

Низкая финграмотность — вызов не только для клиентов, но и для банков

Ведомости
Компьютерное зрение: когда роботы перестали тыкать пальцем в небо? Компьютерное зрение: когда роботы перестали тыкать пальцем в небо?

Зачем нужно компьютерное зрение и какие задачи оно решает в разных сферах

Наука и техника
Любовь к животным и санкции Любовь к животным и санкции

Почему рынок кормов — перспективное направление для инвестиций

Агроинвестор
Михаил Бахтин Михаил Бахтин

Зачем Бахтин понадобился Андропову и почему он так известен в Европе и Штатах?

Дилетант
Как королевские особы влияли на моду? Посмотрите на примеры королевы Виктории и принцессы Дианы Как королевские особы влияли на моду? Посмотрите на примеры королевы Виктории и принцессы Дианы

Влияние монархов на стиль даже в XXI веке куда глубже, чем кажется

ТехИнсайдер
Ядерный зонтик Франции никого не спасет Ядерный зонтик Франции никого не спасет

Из каких компонентов складывается французский ядерный потенциал

Монокль
Золото Владивостока Золото Владивостока

Владивосток: город, где каждая сопка — готовый кадр для открытки

Отдых в России
Хакеры пошли на завод Хакеры пошли на завод

Хакеры продолжают атаки на промышленные предприятия, их цель — шпионаж

Ведомости
Наследие императора Наследие императора

Гатчина — для тех, кто хочет увидеть величие императорской России без туристов

Отдых в России
Запах города Запах города

Аромастилист о том, как не ошибиться в выборе парфюмерного гардероба

ЖАРА Magazine
«Мадагаскару» — 20! Как создавалась мультфраншиза, заработавшая миллиарды и разлетевшаяся на мемы «Мадагаскару» — 20! Как создавалась мультфраншиза, заработавшая миллиарды и разлетевшаяся на мемы

«Мадагаскар»: след в истории и головокружительный успех

Правила жизни
Катай на здоровье Катай на здоровье

Как укрепить мышцы кора и натренировать стабилизацию

ЖАРА Magazine
Борьба за госбезопасность во всём мире Борьба за госбезопасность во всём мире

Юрий Андропов вошел в историю как реформатор, хотя и потенциальный

Дилетант
Маленькая Трота Маленькая Трота

Существовала ли героическая дама Тротула на самом деле?

Дилетант
Испанские авианосцы на мировом рынке Испанские авианосцы на мировом рынке

Что помогло определиться с основными требованиями к универсальному авианосцу

Наука и техника
Экологическая модернизация Экологическая модернизация

Как разные страны переосмысливают управление органическими отходами

Агроинвестор
Будет не жирно? Будет не жирно?

Какой вклад в борьбу с ожирением могут внести производители продуктов питания

Агроинвестор
Коварный удар из-под земли Коварный удар из-под земли

«Холодная война» стала стимулом для неумеренных планов создателей оружия

Наука и техника
Анекдотные коменданты Анекдотные коменданты

Генералы Башуцкий и Мартынов прославились как коллективный персонаж анекдотов

Дилетант
Екатерина Глухарева: «Банки видят уязвимости бизнеса и помогают их исправлять» Екатерина Глухарева: «Банки видят уязвимости бизнеса и помогают их исправлять»

Директор по рискам «Точка банк» — о видах атак мошенников на малый бизнес

Ведомости
Открыть в приложении