Слова вместо нот
После того как мы наигрались с графическими нейросетями Midjourney, DALL-E 2 и Stable Diffusion и даже нарисовали себе при их помощи обложку и часть журнала, возник вопрос, когда появятся подобные музыкальные сервисы. Пишешь: «хочу что-то в стиле калифорнийского серф-рока, но чтобы на гитаре играл Джими Хендрикс, на барабанах – Джон Бонэм, а вокал был от Сэм Браун» – и тебе нейросеть генерит персональный хит. Первый же запрос в Google «text-to-music» выдал в поиске Mubert – проект с российскими корнями, о котором мы писали еще в 2019 году и который с тех пор стал одним из лидеров в мире генеративной музыки. И я отправился к сооснователю Mubert Павлу Згордану, который отвечает в компании за это направление.
В основе технологии генеративной музыки Mubert лежит огромная база семплов – небольших музыкальных партий размером от 1 до 64 тактов, из которых алгоритм, как из кирпичиков, строит музыкальную композицию. В 2019 году коллекция Mubert исчислялась сотнями тысяч семплов, сегодня счет идет на миллионы, и каждый месяц добавляются новые. Mubert покупает их через собственную биржу. «Сейчас мы платим около 50 центов за семпл, и музыканты, которые сотрудничают с нами, зарабатывают на этом в среднем по 500–600 долл. в месяц. Фрагменты необязательно должны сильно отличаться друг от друга – могут быть просто вариации». Собственно, семплы – единственное, что осталось от старого Mubert: все алгоритмы и движки были кардинально переработаны. Старый алгоритм на основе лайков/дизлайков считал так: «если вам понравилось это сочетание звуков, то послушайте теперь вот такое – оно понравилось кому-то с аналогичными предпочтениями». Сейчас результаты выбора прогоняются через нейросеть и преобразуются в некий вектор в многомерном пространстве. Mubert изучил множество данных по трекам в разных жанрах, и музыка стала четче совпадать с ожиданиями пользователей.
«А еще мы сделали драм-машину – она играет барабанные партии, которые уже научилась сама придумывать, – рассказывает Павел Згордан. – Когда запускается трек из присланных семплов, мы вырезаем из них небольшие кусочки, а драммашина создает новый ритм».
Раньше музыкант при загрузке семплов должен был их тегировать; сейчас этого делать не надо: нейросеть по спектральному анализу определяет, что за звук перед ней, какой играет инструмент и пр., и сама маркирует его. Еще внедрили систему автоматического сведения треков – выстраивание баланса громкости, чем обычно занимаются звукорежиссеры. А в финале – автоматический мастеринг, шлифовка трека эквалайзерами и компрессорами. Все это уже работает в генераторе музыки для создателей контента Mubert Render.
Mubert Render
Классное, кстати, приложение! Сколько раз мы в редакции сталкивались с проблемами подборки нужного музыкального трека для нашего видео. Чуть что не так с авторскими правами – и тот же YouTube блокирует ролик. Приходится обращаться к знакомым композиторам, а это лишние траты и времени, и денег.