Компания Meta выпустила языковую модель, которая понимает устную речь

N+1Hi-Tech

Нейросеть от Meta (признана экстремистской организацией на территории РФ) узнает 4017 языков по устной речи и ответит на 1107 из них

Она обучалась на библейских текстах

Виктория Земляк

036d47669be5b6a9ee36339f7fab444e.jpg
Torre de Babel (Вавилонская башня). Pieter Brueghel the Elder / Wikimedia Commons

Компания Meta (признана экстремистской организацией на территории РФ)* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta (признана экстремистской организацией на территории РФ) считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе.

*Деятельность компании Meta запрещена в России.

Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них.

Команда инженеров из компании Meta (признана экстремистской организацией на территории РФ) под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями.

fe065aa4c134af4b7f5dca22405e1e58.jpg
Карта языков, которые поддерживает модель. Фиолетовые и зеленые: определение языка, только фиолетовые: превращение речи в текст. Auli et al. / research.facebook, 2023

Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Ничего не успеваю»: что такое синдром «белого кролика» «Ничего не успеваю»: что такое синдром «белого кролика»

Почему вам постоянно не хватает времени?

Psychologies
И снова здравствуйте: что не так с новым фильмом Уэса Андерсона «Город астероидов» И снова здравствуйте: что не так с новым фильмом Уэса Андерсона «Город астероидов»

Почему громкое имя и звездный каст не спасут новый проект Уэса Андерсона

Правила жизни
Скажи мне «да»: как научиться «культуре согласия»? Скажи мне «да»: как научиться «культуре согласия»?

Оказывается, умение сказать «да» дается тоже непросто, особенно женщинам

VOICE
Трон ждет: как выглядят наследники королевских семей со всего мира Трон ждет: как выглядят наследники королевских семей со всего мира

Как выглядят наследники трона и потомки монархов?

VOICE
Самые вкусные сорта крепкого пива: краткий гид Самые вкусные сорта крепкого пива: краткий гид

Мы предпочитаем смаковать крепкое пиво, наслаждаясь оттенками вкуса

Maxim
Бритва не понадобится: как предотвратить появление катышков на одежде Бритва не понадобится: как предотвратить появление катышков на одежде

Как предотвратить появление катышков в нашей жизни?

VOICE
В поисках гробницы Клеопатры археологи нашли «геометрический чудо-туннель» В поисках гробницы Клеопатры археологи нашли «геометрический чудо-туннель»

Археологи обнаружили огромный туннель, «геометрическое чудо»

ТехИнсайдер
Из грязи в графини. О фильме открытия Каннского кинофестиваля «Жанна Дюбарри» Из грязи в графини. О фильме открытия Каннского кинофестиваля «Жанна Дюбарри»

О том, почему возвращение Деппа на экран нельзя назвать удачным

СНОБ
Вокруг Москвы: куда отправиться в путешествие одним днем Вокруг Москвы: куда отправиться в путешествие одним днем

Заброшенные усадьбы и храмы, пляжи и водопады — куда съездить из Москвы

РБК
Сияние чистого ужаса Сияние чистого ужаса

«Любовь и смерть»: третья экранизация невероятно киногеничного убийства топором

Weekend
Российские иностранцевии заселили Южную Африку незадолго до пермского вымирания Российские иностранцевии заселили Южную Африку незадолго до пермского вымирания

Российские иностранцевии заселили Южную Африку незадолго до пермского вымирания

N+1
Изменив направление мозговых волн, ученые смогли вылечить даже тяжелую депрессию Изменив направление мозговых волн, ученые смогли вылечить даже тяжелую депрессию

Ученые открыли основной биологический механизм тяжелой депрессии

ТехИнсайдер
Дух русского рока: как Балабанов выбирал саундрек для фильма «Брат» Дух русского рока: как Балабанов выбирал саундрек для фильма «Брат»

О взаимоотношениях Балабанова с музыкой и создании фильмов «Брат» и «Брат-2»

Forbes
Мечтать не вредно Мечтать не вредно

Свежие идеи для бизнеса

Автопилот
Какие горячие напитки были популярны на Руси? Какие горячие напитки были популярны на Руси?

Ирина Кирилина рассказала, чем утоляли жажду на Руси

Культура.РФ
У 14-летней девочки отобрали телефон. В отместку она подожгла общежитие и убила 19 детей! У 14-летней девочки отобрали телефон. В отместку она подожгла общежитие и убила 19 детей!

Девушка разозлилась и подожгла общежитие после того, как у нее отобрали телефон

ТехИнсайдер
Дмитрий Леонтьев. Якудза, сыр и калькулятор Дмитрий Леонтьев. Якудза, сыр и калькулятор

Глобализация провалилась, и с этим невозможно спорить

4x4 Club
Детская травма или избалованность? Как расцветают нарциссы Детская травма или избалованность? Как расцветают нарциссы

Кто эти родители, чье обращение к ребенку влечет за собой нарциссизм?

Psychologies
Поразительные паразиты Поразительные паразиты

Есть в паразитах и своя пугающая красота: они изящно манипулируют хозяевами

ТехИнсайдер
Двуличное пространство: как интернет-коммуникации мешают и в чем помогают обществу Двуличное пространство: как интернет-коммуникации мешают и в чем помогают обществу

Почему регулирование цифровых креативных индустрий усиливается?

Forbes
Не только поэт: как Омар Хайям двигал науку вперед Не только поэт: как Омар Хайям двигал науку вперед

История знаменитого философа, сочинителя и ученого Омара Хайяма

Вокруг света
Кофе и сигареты. Кого и что любил Иосиф Бродский Кофе и сигареты. Кого и что любил Иосиф Бродский

Бродский любил выпить, хорошо поесть и жить не мог без кошек и женщин

СНОБ
7 советов, как укротить женский коллектив 7 советов, как укротить женский коллектив

Советы, которые пригодятся любому руководителю женского коллектива

Maxim
«Не приучайте к самостоятельности»: как вырастить маменькиного сынка — 5 вредных советов «Не приучайте к самостоятельности»: как вырастить маменькиного сынка — 5 вредных советов

Как сделать все, чтобы ваш сын не мог от вас съехать в будущем?

Psychologies
Передать нельзя оставить: чем NASA обидело команду New Horizons Передать нельзя оставить: чем NASA обидело команду New Horizons

Почему одни хотят перейти к гелиофизике, а другие не готовы бросать пояс Койпера

N+1
В прокат выходит «Непосредственно Каха. Другой фильм» В прокат выходит «Непосредственно Каха. Другой фильм»

MAXIM посмотрел черную комедию одним из первых

Maxim
Разрушитель порядка Разрушитель порядка

Попробуем нарисовать исторический портрет князя Потёмкина

Дилетант
6 звезд, которые носят незаметные парики или волосы на заколках: разоблачение стилиста 6 звезд, которые носят незаметные парики или волосы на заколках: разоблачение стилиста

Какие бьюти-хитрости используют звезды, чтобы их прически выглядели роскошно?

VOICE
Окситоцин помог мозгу психопатов распознать испуг на лицах Окситоцин помог мозгу психопатов распознать испуг на лицах

После введения окситоцина мозг психопатов начинает лучше распознавать испуг

N+1
Настроим фокус. Неожиданные причины ухудшения зрения (и как связана близорукость с плоскостопием) Настроим фокус. Неожиданные причины ухудшения зрения (и как связана близорукость с плоскостопием)

Приобретенная близорукость влияет не только на нашу способность видеть

Лиза
Открыть в приложении