ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
Безопасно ли прыгать в сухие листья Безопасно ли прыгать в сухие листья

Прыжки в кучи сухих листьев могут представлять опасность для здоровья

ТехИнсайдер
Голографическая реальность Голографическая реальность

Инновационный head-up-дисплей дополняет полезной информацией реальный мир

Популярная механика
Исследование: что такое для российских компаний кадровый резерв, как (и зачем) его формировать Исследование: что такое для российских компаний кадровый резерв, как (и зачем) его формировать

Что такое кадровый резерв и кто его формирует?

Inc.
Билет в один конец Билет в один конец

Илон Маск мечтает умереть на Марсе, и он по-своему прав

Популярная механика
Как подключить телефон к машине: 3 способа Как подключить телефон к машине: 3 способа

Зачем подключать телефон к машине и как это сделать?

РБК
Куда поедем? Куда поедем?

Есть веская причина, по которой кабины лифта не останавливаются на твоем этаже

Популярная механика
В этот раз я не родился курьером В этот раз я не родился курьером

Ведь доставлять можно не только продукты... можно нести что-то большее

Правила жизни
Кто даст мне сто долларов? Кто даст мне сто долларов?

Аукционные дома Sotheby’s и Christie’s: инструкция по применению

Weekend
Правда ли, что OLED-экраны мониторов и телевизоров выгорают? Правда ли, что OLED-экраны мониторов и телевизоров выгорают?

Выгорание OLED-экранов: оправданы ли страхи в действительности?

CHIP
Бренды и тренды Бренды и тренды

Будущее автомобилей направлено исключительно вверх

Men Today
Законы подземных мелодий Законы подземных мелодий

Репортаж из столичного метро: чем живут музыканты под землей

Монокль
5 привычек, которые бесят всех врачей 5 привычек, которые бесят всех врачей

Почему врач не может поставить вам правильный диагноз?

Maxim
Платформенные ожидания Платформенные ожидания

Какие правила будут разработаны в рамках закона о платформенной экономике?

Ведомости
От Голливуда до слухов про лоботомию: печальная история успеха Фрэнсис Фармер От Голливуда до слухов про лоботомию: печальная история успеха Фрэнсис Фармер

Правда о трагедии женщины, чей образ исказили газетные мифы

ТехИнсайдер
Akmal': «У меня ни разу не было творческого кризиса» Akmal': «У меня ни разу не было творческого кризиса»

Почему певец Akmal' может позволить себе капризы?

VOICE
Исследование: как пустынная пыль влияет на образование облаков и климат Исследование: как пустынная пыль влияет на образование облаков и климат

Как пустыни влияют на формирование облаков?

ТехИнсайдер
Учеба на износ Учеба на износ

Почему школьники заняты больше, чем работающие взрослые?

Ведомости
Как управлять болью в мозгу без таблеток? Эксперт дал интересный ответ Как управлять болью в мозгу без таблеток? Эксперт дал интересный ответ

Хроническую боль можно избежать, если "перепрограммировать" мозг

ТехИнсайдер
Классика жанра Классика жанра

При обустройстве ванной комнаты дизайнеру пришлось учесть множество нюансов

Идеи Вашего Дома
Несколько десятков страниц: 8 самых коротких книг-бестселлеров в мире Несколько десятков страниц: 8 самых коротких книг-бестселлеров в мире

Встречайте: 10 коротких, но жутко интересных и важных книг

ТехИнсайдер
Считаем правильно: как определить реальную себестоимость закупок из Китая Считаем правильно: как определить реальную себестоимость закупок из Китая

Как сделать импорт товаров из Китая выгодным?

Inc.
Другая история Другая история

Человеческому терпению нет предела, но это явно не тот случай!

Знание – сила
Многофакторность климата Многофакторность климата

Факторы, которые способствуют росту средней температуры в полярных областях

Знание – сила
Идеальный руководитель: как найти баланс между строгостью и дружелюбием Идеальный руководитель: как найти баланс между строгостью и дружелюбием

Какие качества и подходы делают руководителя эффективным лидером?

Inc.
Как нетворкинг помогает в развитии бизнеса Как нетворкинг помогает в развитии бизнеса

Нетворкинг: что это такое и какую пользу он приносит развитию бизнеса?

Inc.
Телескоп Chandra показал, что творится внутри звезды перед ее гибельным взрывом Телескоп Chandra показал, что творится внутри звезды перед ее гибельным взрывом

Драма за часы до взрыва звезды

ТехИнсайдер
Это флирт: лови сигнал Это флирт: лови сигнал

Что заставит мужчину обратить на тебя внимание и подойти?

Лиза
Дмитрий Средин: «Наша цель – обеспечить устойчивое развитие бизнеса компаний» Дмитрий Средин: «Наша цель – обеспечить устойчивое развитие бизнеса компаний»

Как выживают крупные корпорации и какую роль играют в этом финансовые институты

Ведомости
Одно из самых опасных транспортных средств: как погибла Мэри Уорд — первая в мире жертва автомобильного ДТП Одно из самых опасных транспортных средств: как погибла Мэри Уорд — первая в мире жертва автомобильного ДТП

Кто такая Мэри Уорд и как она связана с первым в мире ДТП

ТехИнсайдер
Открыть в приложении