ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Время людей Время людей

Антропоцен – время, когда человек оказывает глобальное влияние на всю планету

Популярная механика
Переосмыслить Петербург: как архитектура и фотография  помогут увидеть город по-новому Переосмыслить Петербург: как архитектура и фотография  помогут увидеть город по-новому

Архитектура может быть не только функциональной, но и трогательной

VOICE
Мяу по-русски Мяу по-русски

Налаживая связь с человеком, кошки изменили тональность мяуканья

Популярная механика
«Почему мы помним. Как раскрыть способность памяти удерживать важное» «Почему мы помним. Как раскрыть способность памяти удерживать важное»

Как гиппокамп участвует в работе памяти

N+1
Время спать Время спать

Хотите впасть в спячку до весны? Теоретически для этого нет никаких препятствий

ТехИнсайдер
Битва куликова Битва куликова

…Бойцовые собаки, бойцовые петухи, бойцовые кулики. Вы знаете о последних?

Наука и жизнь
Невероятно, но... мясо Невероятно, но... мясо

Имитации мясных продуктов из растений и клеточных культур становятся модными

Популярная механика
Как отмыть увлажнитель воздуха от накипи и налета Как отмыть увлажнитель воздуха от накипи и налета

Как почистить увлажнитель воздуха от накипи, чтобы он радовал вас чистым паром

CHIP
Я работаю мамой Я работаю мамой

Валентина Красникова, мама 17 детей, о семье и хобби

Лиза
Над всей Испанией безоблачное небо Над всей Испанией безоблачное небо

Как восемь гигаватт «погасили» электрическую сеть Пиренейского полуострова

Монокль
Почему не стоит оставлять открытыми алюминиевые банки в холодильнике Почему не стоит оставлять открытыми алюминиевые банки в холодильнике

Безопасно ли есть из железных банок, которые были оставлены открытыми?

ТехИнсайдер
Дело в Омане Дело в Омане

Из-за чего интерес российских инвесторов смещается в сторону Омана от ОАЭ

Ведомости
В Финляндии стали использовать избыточное тепло дата-центров для отопления В Финляндии стали использовать избыточное тепло дата-центров для отопления

Дата-центр снабжает финский город теплом уже около десяти лет

Inc.
Режиссер Леонид Хейфец. Откровенно о Дорониной, Миронове и Борисове Режиссер Леонид Хейфец. Откровенно о Дорониной, Миронове и Борисове

Когда Ефремов пригласил меня, МХАТ как раз «пилился»

Коллекция. Караван историй
Флагман «Адмирала» Флагман «Адмирала»

Platinum от Admiral Yachts: суперъяхта, опередившая своё время

Y Magazine
Семь секретов красивого голоса Семь секретов красивого голоса

Простые хитрости, которые помогут сохранить звучание голоса в любом возрасте

Здоровье
Антон Рудзат Антон Рудзат

Антон Рудзат режиссирует, фотографирует и придумывает стратегии

Собака.ru
Древние и красивые: 5 важных археологических памятников Древние и красивые: 5 важных археологических памятников

Самые впечатляющие и ценнейшие археологические памятники

ТехИнсайдер
Франшиза: Что скрывается за этим словом? Франшиза: Что скрывается за этим словом?

Франшиза — идеальный рецепт успеха или сложная система с подводными камнями?

Наука и техника
Атлантические крепости Третьего рейха Атлантические крепости Третьего рейха

Атлантический вал: порты-крепости и их роль в обороне Третьего рейха

Наука и техника
Путешествие как бизнес Путешествие как бизнес

Истории тех, для кого путешествия стали не только хобби, но и бизнесом

Новый очаг
Цветок троллей Цветок троллей

Купальница европейская: когда одна стоит, и то мимо не пройдёшь

Наука и жизнь
7 неверных установок 7 неверных установок

Они накрепко засели у нас голове еще с детства – и сильно отравляют жизнь

Лиза
Всем оставаться на местах Всем оставаться на местах

Что делать, если выпадают волосы: пошаговая инструкция

Лиза
«Эффективность ЭКО можно увеличить вдвое, если мужчина не останется в стороне» «Эффективность ЭКО можно увеличить вдвое, если мужчина не останется в стороне»

Как можно снизить количество попыток ЭКО при имеющихся ресурсах

Ведомости
Нейросети в поисках персонала: как компании используют искусственный интеллект в рекрутинге уже сейчас Нейросети в поисках персонала: как компании используют искусственный интеллект в рекрутинге уже сейчас

Как рекрутеры используют нейросети — кейсы из России

ТехИнсайдер
Окно в Китай Окно в Китай

Как китайская фармотрасль стала одной из ведущих в мире

Ведомости
Губительный пожар, которого не было Губительный пожар, которого не было

ЧП на АПЛ К-152: диверсия врага или трагедия из-за человеческого фактора?

Наука и техника
Антон Богданов: «Хвала режиссерам, которые не обращают внимания на амплуа» Антон Богданов: «Хвала режиссерам, которые не обращают внимания на амплуа»

Антон Богданов рассказал о том, как готовился к роли подводника в «Кракене»

Ведомости
В Германии, в Германии, проклятой стороне В Германии, в Германии, проклятой стороне

Как советского солдата удержали от мести при штурме Германии

Монокль
Открыть в приложении