Что кроется за понятием общения для робота, рассказали инженеры

Популярная механикаHi-Tech

Я слышу голоса: общительный массив для дружелюбного робота

Компания Promobot

Самая главная формула успеха – умение общаться с людьми, любил повторять небезызвестный Теодор Рузвельт. В случае робота эта формула принимает критическое значение, ведь без способности к общению робот превращается в обычный, пусть и высокотехнологичный механизм. Что кроется за понятием общения для робота, рассказали инженеры компании «Промобот» Валерий Титов и Владислав Сазонов. И как выяснилось, пара «микрофон-динамик» здесь устарела ещё в прошлом веке, а найти подходящую «голову» практически невозможно.

Для людей слышать и понимать речь собеседника - обыденное дело. Человек слышит, человек отвечает. Но когда речь заходит о том, чтобы нас услышал и понял не человек, а робот, начинаются проблемы. Общение с роботом может проходить в сложных условиях: множество источников шума, несколько одновременно говорящих с разных сторон людей. Обычные микрофоны могут реагировать даже на речь самого робота.

В своей жизни человек даже не замечает, насколько сложен процесс общения с технической точки зрения. Чтобы научить роботов «Промобота» общаться, нам пришлось найти идеальные уши, рот и главное - научить их правильно работать.

«Хонда» для российского робота

Для идеального слуха роботу требуется две вещи: хорошие уши и надежная голова, способная понять, что же уловили уши. Решением вполне может стать аппаратно-программный комплекс на базе микрофонного массива.

С набором микрофонов всё просто: на корпусе робота их можно разместить там, где требуется. С программным обеспечением всё значительно сложнее. Дело в том, что работая с ушами, голова должна как минимум:

  • вырезать в услышанном речь робота;
  • очистить звук от шума;
  • определить, есть ли в услышанном и очищенном речь;
  • определить источник речи;
  • сформировать луч (по английски эта процедура называется beamforming), чтобы усилить исходный звуковой сигнал от источника;
  • распознать речь в звуковой дорожке после всех манипуляций.

Как правило, последний шаг выносится за пределы зоны ответственности микрофонного массива.

2d8e8f77f8d368eb6c00e2cffae50b93.jpg

Готовых решений на мировом рынке оказалось не так много. Наиболее перспективной нам показалась совместная разработка Японского исследовательского института Хонды и Киотского университета под названием HARK (Honda research institute Japan Audition for Robots with Kyoto university).

fcbb8549de0635ab33b54e956020e205.jpg

HARK изначально проектировалась для роботов, работающих в антропоморфной среде, где требуется услышать и разобрать команды от человека. Это ПО с открытым кодом можно было связать с Robot Operating System (ROS), процесс обработки звука с микрофонов легко настраивался. Дополнительным преимуществом стала заявленная возможность одновременного определения нескольких источников звука. Казалось, это то, что нам нужно! Японцы настолько очаровали нас своей разработкой, что мы скоропостижно перестали искать альтернативу.

Смертельные миллиметры звука

Для первых тестов в 2014 году мы использовали микрофонный массив RASP LC на 8 микрофонах. Четыре располагались на центральной части груди корпуса робота, вокруг экрана; три - на верхней части груди, ближе к шее; и один - сзади по центру, у основания шеи. Уже после первого теста мы выявили две проблемы критического уровня: вибрация и сложность расчётов.

89dca29813daca49524d1349e942bcec.jpg

Дело в том, что робот сам по себе – это механизм с огромным количеством движущихся деталей. И каждое движение создавало так называемые наводки на микрофон – фоновый шум, требующий постоянного анализа.

Вторая проблема заключалась в обработке полученных аудиоданных. Разработчики HARK заложили два принципиально разных подхода аналитики аудиопотоков. Первый назван геометрическим и сводится к точному (до десятых долей миллиметра) описанию расположения микрофонов в пространстве с учетом их направлений. Второй, без специального названия, опирается на калибровочную модель. Её создают путем многократной записи через массив одной и той же записи с разных точек пространства вокруг массива.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как выращивать помидоры на дачном участке: секрет высоких грядок Как выращивать помидоры на дачном участке: секрет высоких грядок

Выращивание сезонных овощей на дачном участке требует много времени и сил

Популярная механика
Это не Чехов! Это не Чехов!

Почему современный театр изменяет классику, но никогда ее не бросает

Weekend
Как проверить, что ИИ достиг уровня интеллекта человека Как проверить, что ИИ достиг уровня интеллекта человека

Как понять, на каком уровне развития находится искусственный интеллект?

ТехИнсайдер
Старые, но интересные: 6 онлайн-игр, которые потянут слабые ПК Старые, но интересные: 6 онлайн-игр, которые потянут слабые ПК

Онлайн-игры, не требующие сильного железа

CHIP
Реальные факты, стоящие за самыми известными мифами в истории Реальные факты, стоящие за самыми известными мифами в истории

Порой за легендами стоят реальные факты и явления

Maxim
Сделала пластику и жалею: откровенные признания тех, кто решился на операцию Сделала пластику и жалею: откровенные признания тех, кто решился на операцию

Порой желаемая пластическая операция не приносит долгожданного результата

Cosmopolitan
Как научить ребенка ценить вещи Как научить ребенка ценить вещи

Что делать, если твой ребенок не знает цену вещам

Maxim
Ботинки-пальцы и криосауна: на что тратит деньги Рената Литвинова Ботинки-пальцы и криосауна: на что тратит деньги Рената Литвинова

Кольца, платья, маски — выясняем, во что вкладывает деньги Рената Литвинова

РБК
Илья Сачков, Group-IB: после работы в России вести бизнес в любой другой стране легко Илья Сачков, Group-IB: после работы в России вести бизнес в любой другой стране легко

Интервью: как изменился бизнес на информационной безопасности в мире

Inc.
Дмитрий Крестьянкин Дмитрий Крестьянкин

Дмитрий Крестьянкин — амбассадор инклюзивных проектов и документального театра

Собака.ru
Как выглядели бы постаревшие звезды в своих фильмах сейчас? (Немного грустная галерея) Как выглядели бы постаревшие звезды в своих фильмах сейчас? (Немного грустная галерея)

Ничто так не демонстрирует быстротечность времени, как современные лица звезд

Maxim
Ускользающие инопланетяне Ускользающие инопланетяне

Новая шкала инопланетных цивилизаций

Популярная механика
Как сделать из города машину счастья Как сделать из города машину счастья

Проект «Оправдание утопии»: Томмазо Кампанелла и его La Citta del Sole

Weekend
Евгений Миронов: «Планка настолько высока, что сейчас сложно понять, куда идти дальше и как развиваться» Евгений Миронов: «Планка настолько высока, что сейчас сложно понять, куда идти дальше и как развиваться»

Худрук и актер Евгений Миронов — как репетировать спектакль по Zoom

Grazia
Почему мы живем в эпоху прерванного визуального акта Почему мы живем в эпоху прерванного визуального акта

С годами потребление контента приобрело совершенно новый характер

GQ
Режиссер Кира Коваленко — о Кавказе, Каннах и кино Режиссер Кира Коваленко — о Кавказе, Каннах и кино

Кирой Коваленко о правдивости кино и нежности, живущую на Кавказе

РБК
Дипфейк: будущее порно — будущее интернета Дипфейк: будущее порно — будущее интернета

Искусственный интеллект меняет секс-индустрию — и не в лучшую сторону

СНОБ
Глубоко, уважаемый! Глубоко, уважаемый!

Как русские захватили фридайвинг

Men’s Health
Жители Приморья в эпоху палеометалла наладили два маршрута поставок медной руды Жители Приморья в эпоху палеометалла наладили два маршрута поставок медной руды

Археологи исследовали 12 бронзовых артефактов 1100–800 годов до нашей эры

N+1
Их эксплуатируют компании, грабят воры и не защищает правительство: как живут 65 тысяч доставщиков еды в Нью-Йорке Их эксплуатируют компании, грабят воры и не защищает правительство: как живут 65 тысяч доставщиков еды в Нью-Йорке

Как доставщики справляются с грабителями и несправедливостью

VC.RU
Эпигенетическую регуляцию в мозге увидели с помощью диеты и МРТ Эпигенетическую регуляцию в мозге увидели с помощью диеты и МРТ

Разработана методика неинвазивной визуализации эпигенетических маркеров в мозге

N+1
Найден способ сделать перовскитовые солнечные батареи еще эффективнее Найден способ сделать перовскитовые солнечные батареи еще эффективнее

Ученые Нового физтеха ИТМО нашли способ повысить эффективность солнечных батарей

Популярная механика
Случайная остановка Случайная остановка

Сколько удивительных существ удаётся встретить в самом обычном месте!

Наука и жизнь
Глаз не оторвать: самые красивые дочери российских знаменитостей Глаз не оторвать: самые красивые дочери российских знаменитостей

Яркие кадры маленьких наследниц громких фамилий

Cosmopolitan
Измены, разводы, быт: 6 честных фильмов про любовь Измены, разводы, быт: 6 честных фильмов про любовь

Самые честные фильмы о любви

VOICE
«У нас дочь и замок в Англии, но мы не женаты»: как относятся к браку в Европе «У нас дочь и замок в Англии, но мы не женаты»: как относятся к браку в Европе

Что в Европе думают о замужестве?

Cosmopolitan
Десятки миллионов продаж и минималистичный дизайн для родителей: почему переноска-«кенгуру» BabyBjörn стала популярной Десятки миллионов продаж и минималистичный дизайн для родителей: почему переноска-«кенгуру» BabyBjörn стала популярной

BabyBjörn осмыслила дизайн детских товаров так, чтобы они нравились родителям

VC.RU
«Разгадка кода майя: как ученые расшифровали письменность древней цивилизации» «Разгадка кода майя: как ученые расшифровали письменность древней цивилизации»

История дешифровки письменности майя

N+1
«Разведенка и истеричка»: почему женщинам дают обидные прозвища? «Разведенка и истеричка»: почему женщинам дают обидные прозвища?

Почему обзывательства и ярлыки преследуют женщин на протяжении всей жизни?

Psychologies
4 типа друзей, с которыми пора расстаться 4 типа друзей, с которыми пора расстаться

Как научится расставаться с такими «друзьями»

Psychologies
Открыть в приложении