ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Умная материя Умная материя

Армия нанороботов сделает нашу жизнь окончательной фантастикой

Популярная механика
Как модельер Эльза Скиапарелли совмещала удобный крой и эксцентричность Как модельер Эльза Скиапарелли совмещала удобный крой и эксцентричность

Эльза Скиапарелли привнесла в моду искусство

Forbes
И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
Соскочить с крючка вины: как распознать манипуляцию с первой секунды Соскочить с крючка вины: как распознать манипуляцию с первой секунды

Что такое навязанная вина и как она связана с манипуляцией?

VOICE
Опасный гном Опасный гном

6Г30 – ручной револьверный 6-зарядный 40-мм гранатомет

Популярная механика
Дэн Браун Дэн Браун

Правила жизни писателя Дэна Брауна

Правила жизни
Дзен, дизайн и гастрономия: что делать в Хельсинки этим летом Дзен, дизайн и гастрономия: что делать в Хельсинки этим летом

Проводим выходные в финской столице

РБК
Фундамент будущего Фундамент будущего

Блиц-интервью с учеными, лидерами мнений в своей профессии

OK!
Уральский микс Уральский микс

На мой взгляд, напитки все же должны оставаться на втором плане

Bones
Аслан Шукаша: «Делиться планами — опасно!» Аслан Шукаша: «Делиться планами — опасно!»

Аслан Шукаша: как он выходит из тупиков и на какие вопросы не отвечает публично

ЖАРА Magazine
Партнер-провокатор: что стоит за его манипуляциями и как реагировать правильно Партнер-провокатор: что стоит за его манипуляциями и как реагировать правильно

Как вычислить манипуляцию провокацией и как правильно реагировать на нее

Psychologies
Ударные АПЛ европейских стран НАТО Ударные АПЛ европейских стран НАТО

Лодки класса «Трафальгар» проектировались для противостояния советским подлодкам

Наука и техника
Движение вверх Движение вверх

Последние пять лет Москва переживает промышленный бум

Ведомости
«Чистейший образец» «Чистейший образец»

Составить цельный образ Натальи Николаевны Гончаровой — сложная задача

Дилетант
Есть контакт Есть контакт

Как установить и почувствовать связь со своим телом

Grazia
«Дорожная карта» для наблюдений за погодой «Дорожная карта» для наблюдений за погодой

Минсельхоз совместно с Росгидрометом планируют развивать систему метеостанций

Агроинвестор
Наш паровоз вперед летит Наш паровоз вперед летит

Одна из новинок проката — фильм режиссера Андрея Волгина «Красный шелк»

Монокль
Потерянная туфелька и утраченная актуальность Потерянная туфелька и утраченная актуальность

Краткая история Золушки от египетских пирамид

Weekend
«Перемолотый край, где сопки нетронуты, а долины истерзаны» «Перемолотый край, где сопки нетронуты, а долины истерзаны»

Желание восстановить историю семьи может привести к историческому расследованию

Дилетант
«Отречение Карла V» «Отречение Карла V»

Драма отречения императора Карла V в картине Луи Галле, прославившей художника

Дилетант
Клетки сами лечат пациента Клетки сами лечат пациента

В России начинается волна развития биомедицинских клеточных технологий

Монокль
Антон Рогачёв: «Прежде всего мы стремились играть людей» Антон Рогачёв: «Прежде всего мы стремились играть людей»

Актер Антон Рогачёв про взаимоотношения с фэнтези и любовь к истории

Grazia
Экономика кухни: как решить больной вопрос Экономика кухни: как решить больной вопрос

За время работы в индустрии я не помню такой турбулентности

Bones
Книги Книги

Лучшие современные иностранные романы: выбор Яны Вагнер

Правила жизни
Моральный кодекс Моральный кодекс

Мила Ершова о справедливости и вопросах, на которые нет однозначного ответа

Grazia
1647-летний можжевельник из Финляндии назвали старейшим древесным растением тундры и Европы 1647-летний можжевельник из Финляндии назвали старейшим древесным растением тундры и Европы

Старейший можжевельник из Финляндии рос с 260 по 1906 год

N+1
Свой или чужой Свой или чужой

Как судить человека, если судьба предопределила ему две роли — жертвы и палача?

Дилетант
Сапог — оружие богатыря Сапог — оружие богатыря

Cвязаны ли в действительности Илия Печерский и легендарный герой Илья Муромец?

Дилетант
«Семья» – это главное «Семья» – это главное

Самым «дорогим» национальным проектом до 2030 г. станет «Семья»

Ведомости
«Актив на самом деле уникальный» «Актив на самом деле уникальный»

Кирилл Ершов — о развитии подконтрольной холдингу компании «Ростагро»

Агроинвестор
Открыть в приложении