|
как это работает и где попробовать самостоятельно
Даша Лейзаренко
больше не слушает настоящую музыку
Профиль автораВ последние несколько лет нейросети все сильнее проникают в творческие области. Они уже впечатляюще генерируют тексты и картинки, а теперь пришло время музыки.
В 2023 году показали сразу три алгоритма, которые генерируют музыку по текстовому запросу. Раньше нейросети могли только дополнять уже готовые треки или создавать их на основе заданной мелодии.
Эксперты предрекают, что ИИ упростит работу музыкантам и создателям спецэффектов, но компании опасаются выкладывать в открытый доступ сервисы, обученные на реальной музыке. Рассказываем, что происходит в индустрии и где уже сейчас можно попробовать сгенерировать трек самостоятельно.
Что вы узнаете
- Как нейросети создают музыку
- Что «музыкальные» нейросети умели раньше
- Что «музыкальные» нейросети умеют теперь
- Какие «музыкальные» нейросети можно попробовать уже сейчас
Как нейросети создают музыку
«Музыкальные» нейросети обучают на большом объеме аудиофайлов. Их собирают в базу и передают ИИ. Первые результаты будут звучать плохо, но чем больше нейросеть обучается, тем лучше становится звук.
Выучив шаблоны разных композиций, нейросеть может писать похожие мелодии. Многое зависит от базы данных: если обучить ИИ на музыке Элвиса Пресли, то нейросеть будет генерировать только нечто похожее на его песни.
Генерация нот. Обычно нейросети создают музыку в виде последовательности символов. В таком случае результатом генерации будет партитура — последовательность звуков, нот, аккордов. То есть нейросеть создает визуальную репрезентацию произведения, по которому оно воспроизводится.
/chatgpt/ChatGPT: как пользоваться нейросетью и что она умеет
Этот подход OpenAI использовала в нейросети MuseNet, которая вышла в апреле 2019 года. Ее обучили на большом массиве записей, поэтому она может генерировать композиции и комбинировать разные жанры. Например, способна исполнить Симфонию № 5 Бетховена в стиле Леди Гаги.
Симфония № 5 Бетховена в стиле Леди Гаги, сгенерированная MuseNetТакой подход ограничен: нейросеть генерирует только ноты, а не разнообразие человеческих голосов, тональностей, выразительности и тонкостей звука, которые важны для музыки.
Генерация аудиосигнала не имеет ограничений символьных генераторов: такие алгоритмы могут создавать любой звук — разнообразный вокал, аудиоэффекты, переходы, а не только последовательность нот. Это требует больших вычислительных способностей для обучения модели.
10 сайтов с моделями, текстурами и звуками для создания игр
Проблема в том, что музыка состоит из длинных последовательностей. К примеру, четырехминутная песня в студийном качестве состоит из десятка миллионов значений. Это останавливало разработчиков от создания нейросетей, способных генерировать музыку «с нуля».
Что «музыкальные» нейросети умели раньше
Генерировать музыку по шаблонам. В последние годы появились инструменты, генерирующие музыку по жанрам или настроениям. Они позволяют безо всяких познаний в музыке за несколько секунд создать трек, а затем поменять в нем инструменты или изменить мелодию.
Однако контроля над самим результатом генерации в таких сервисах мало — любой запрос задать не получится, приходится работать с готовыми пресетами.
Разделять дорожки. С помощью нейросетей также научились чисто разделять дорожки в треках: например, чтобы удалить вокал или переместить бас из одной песни в другую. Это упростило создание ремиксов и мэшапов.
/how-to-use-capcut/Как пользоваться видеоредактором CapCut и почему он настолько популярен
Раньше приходилось получать доступ к исходникам треков или глушить частоты, а теперь это делается через программы, например Serato Stems 3.0 или Аudioshake. Эти инструменты помогают диджеям и продюсерам, работающим с семплами.
Пример ремикса пяти популярных песен в Serato Stems 3.0Создавать бесконечные музыкальные фоны. ИИ также может генерировать фоновую музыку. Например, стартап Endel выпустил приложение, которое в реальном времени создает бесконечные звуковые ландшафты, чтобы слушатель мог сосредоточиться на работе или учебе. Похожий сервис выпустил и «Яндекс». Такая музыка обычно звучит как эмбиент или лоу-фай хип-хоп.
Что «музыкальные» нейросети умеют теперь
В конце января исследователи из Google представили нейросеть MusicLM, которая может генерировать аудио продолжительностью до пяти минут.
Модель генерирует аудиосигнал напрямую. Алгоритм сжимает аудио, отбрасывая биты информации, не имеющие отношения к восприятию музыки. Затем звук генерируется в этом сжатом пространстве, а на выходе перекодируется в нормальное аудио.
MusicLM обучена на 5500 парах аудио с соответствующими текстовыми описаниями. Всего нейросети «скормили» 280 000 часов аудиозаписей. ИИ нельзя попробовать самостоятельно, но компания представила примеры генерации.
Генерировать музыку по описанию — основная функция MusicLM. Она создает треки как по короткому запросу, например «мелодичное техно» или «клуб в 80-х», так и по целому абзацу описания текста.
/midjourney-tips/Как пользоваться Midjourney для генерации рисунков и правильно составлять запросы
К примеру, MusicLM создала аудио по такому текстовому описанию: «Саундтрек аркады в быстром темпе и с бодрым ритмом с запоминающимся рифом электрогитары. Музыка повторяется и легко запоминается, но в ней присутствуют неожиданные звуки — удары тарелок или барабанная дробь».
Саундтрек для аркады, сгенерированный MusicLMЭто уже можно попробовать?
Google не планирует открывать публичный доступ к MusicLM из-за возможных проблем с авторским правом — ведь ИИ обучали на музыке, принадлежащей реальным исполнителям. Нейросети, которые генерируют картинки, уже столкнулись с такой проблемой: против Midjourney и Stable Diffusion подали иски художники, на чьих работах обучили эти сервисы. Однако компания выпустила базу данных, на которой разработчики смогут обучить свои нейросети.
Нейросеть также может создавать музыку по скрипту: разработчики сгенерировали аудио, которое начинается как «медитация», переходит к «пробуждению», а затем к «пробежке». Так можно описать любую историю, а нейросеть сделает переходы в указанных тайм-кодах.
Музыка, созданная по скрипту: time to meditate — time to wake up — time to run — time to give 100%Генерировать музыку по вокалу может сервис SingSong, который компания Google создала на основе MusicLM. Он работает как караоке наоборот: обычно люди поют под трек, но в этом случае песня создается на основе голоса.
Разработчики говорят, что сервис позволит любому человеку, умеющему петь, создавать новую музыку с богатым инструментарием. Сам алгоритм пока нельзя попробовать, но можно послушать примеры генерации.
Демo SingSongГенерировать звуковые эффекты умеет другая нейросеть AudioLDM, использующая модель скрытой диффузии. На ее основе работает Stable Diffusion. Текстовый запрос кодируется предварительно обученной языковой моделью. В зависимости от того, что указано в запросе, модель генерирует сжатый сигнал с помощью диффузионного генератора, который затем преобразуется в звуковую волну.
Нейросеть нельзя попробовать самостоятельно, но компания представила примеры генерации. Так, AudioLDM сгенерировала голос человека под водой, сражение космических кораблей, мяуканье кота, звук проезжающего автомобиля.
/stable-diffusion/Как пользоваться нейросетью Stable Diffusion без навыков программирования
Причем AudioLDM улавливает тонкости материалов: звук нарезки помидоров на деревянной доске отличается от звука нарезки картошки на металлическом столе. AudioLDM также генерирует звук по спектрограммам.
Голос мужчины под водой Сражение космических кораблей Мяуканье кота Звук проезжающего автомобиля Звук нарезки помидоров на деревянной доске Звук нарезки картошки на металлическом столеКакие «музыкальные» нейросети можно попробовать уже сейчас
Большинство сервисов пока не могут генерировать музыку по текстовому запросу. Google и разработчики AudioLDM не планируют открывать доступ к своим моделям, а OpenAI и другие разработчики выкладывают код на GitHub, который не смогут попробовать люди без знаний программирования.
Если умеете программировать
JukeBox. OpenAI выложила в открытый доступ код, который позволяет генерировать полноценные песни. Для этого нужно задать жанр, имя исполнителя и текст песни. ИИ также может делать полноценные треки на основе 12-секундных семплов или генерировать тексты несуществующих песен. Примеры сгенерированных треков можно посмотреть здесь.
Moûsai. Нейросеть c открытым кодом, которая работает по принципу скрытой диффузии, как Stable Diffusion. По текстовому описанию генерирует стереомузыку высокого качества на частоте 48 кГц — это соответствует студийному качеству.
Подобрали несколько сервисов — генераторов музыки, которые доступны в удобных интерфейсах.
Riffusion. Создает музыку не по тексту, а по картинке. Работает это так: вы придумываете текстовый запрос, по нему генерируется спектрограмма, а потом она конвертируется в аудио. Нейросеть обучали на связках «аудио — текстовое описание», поэтому она может генерировать афробит, джаз, кей-поп и любые другие жанры.
Riffusion позволяет интересно миксовать жанры: например, если написать «бас стука печатной машинки», то нейросеть превратит звук печатания в музыку. Скачать треки нельзя, только поделиться ими в соцсетях. Сгенерировать что-то пригодное для использования не получится, но зато можно надолго залипнуть.
/how-to-make-cartoon/Как сделать свой мультфильм — в любом возрасте и с помощью смартфона
Главная — и единственная — страница Riffusion. Прописывайте запрос в поле и жмите Play. Источник: riffusion.comMagenta. Набор демоинструментов и мини-игр, созданных на основе открытого кода проекта Google, который занимается машинным обучением. Практического применения у них нет, они просто демонстрируют возможности машинного обучения. Например, DrumBot играет на барабанах на основе мелодии, набранной пользователем через клавиатуру, а MidiMe создает музыку на основе загруженного трека.
Есть и более фановые инструменты: в Runn уровни игры генерируются на основе играющего трека, в Sornting нужно составлять мелодии в интерполяцию, а Piano Genie позволяет почувствовать себя пианистом.
Чем сильнее притворяешься пианистом, тем лучше звучит мелодия. Источник: piano-genie.glitch.meMubert. Сервис специализируется на генерации фоновой музыки для роликов на «Ютубе» или коротких рилсов. Можно выбирать из предложенных жанров и настроений, например чиллвейв или эмбиент. Можно прописать свой запрос текстом, но дэт-метал или джаз-фьюжн нейросеть сгенерировать не сможет — получится софт-рок и обычный джаз.
После регистрации бесплатно можно сгенерировать до 25 треков в месяц длительностью до 25 минут. Чтобы их скачать, нужно добавить ссылку на канал, где вы будете их использовать.
Поле, где можно прописать запрос. Источник: mubert.comSoundraw. Простой генератор треков без вокала, где можно выбрать настроение, жанр, тему, темп и инструменты, а также задать продолжительность трека. Есть редактор, позволяющий изменять мелодию, темп, ритм, тональность. Сгенерировать по текстовому запросу нельзя.
Само создание музыки бесплатное, но чтобы скачивать ее, нужно платить 16,99 $ (1243 Р) в месяц. Оплатить можно с помощью «Пэйпэл» или международными картами «Виза» и «Мастеркард». По подписке количество генераций и скачиваний музыки не ограничено. Аналогичный популярный сервис — Boomy.
Интерфейс Soundraw. Источник: soundraw.comAvia.AI. Генерирует музыку в выбранной тональности по заготовленным жанрам или загруженному треку. Трек можно отредактировать прямо в сервисе — удалить или добавить инструмент, растянуть или сжать партию, изменить темп, добавить реверб или дилэй.
Бесплатно можно скачать три трека длительностью до трех минут. Чтобы скачивать до 200 треков и получить на них авторские права, придется платить 49 € (3860 Р) в месяц. Такую музыку можно использовать в фильмах, сериалах или видеоиграх, а не только для роликов на «Ютубе».
Редактор аудио в Avia. AI. Источник: avia.aiМы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.
Топ-40 и поп-музыка | Бесплатное интернет-радио | Настройтесь | Бесплатное интернет-радио
Станции
Кнопка воспроизведенияГоды и годы с Кайли Миноуг — Starstruck
Кнопка воспроизведенияAdele — Set Fire to the Rain
Кнопка воспроизведенияKiesza — Hideaway
Кнопка воспроизведенияШик — Я хочу твоей любви
Кнопка воспроизведения 900 02 Ace of Base — Все, что она хочет Кнопка воспроизведенияNickelback — ТЕ ДНИ
Кнопка воспроизведенияРема и Селена Гомес — Успокойся
Кнопка воспроизведенияWill Smith — Men In Black
Кнопка воспроизведенияLoud Luxury — NEXT TO YOU
Кнопка воспроизведенияJustin Bieber feat. Daniel Caesar & Giveon — Peaches
Play ButtonКайли Миноуг — Падам Падам
Play ButtonРоза Линн — Snap
Play ButtonICONA POP & GALANTIS — I WANT YOU
Play ButtonDe Poema’s — Zij maakt het verschil
Play ButtonMike Sarne & Wendy Richard — Come Out
Play ButtonКристина Агилера — Woohoo
Play ButtonЗигги Альбертс с участием. Donovan Woods — THE SUN & THE SEA
Play ButtonClockClock — Someone Else
Play ButtonAvicii — Waiting for Love
Play ButtonLIZOT & Felix Samuel — Edge Of The Night
Play ButtonTom Gregory — Never Look Back
Play КнопкаThe Guru Project — This Is the Night
Кнопка воспроизведенияWiz Khalifa feat. Чарли Пут — Увидимся снова
Кнопка воспроизведенияТом Грегори — Никогда не оглядывайся назад
Кнопка воспроизведенияЭд Ширан — Дрожь
Подробнее
Подкасты
Кнопка воспроизведенияРадиошоу №1 в Австралии. К Кайлу и Джеки О каждый день присоединяются крупнейшие мировые звезды на радиостанции номер 1 в Сиднее, KIIS1065. Ежедневно получайте ПОЛНОЕ ШОУ по запросу, а также мини-эпизоды с лучшими моментами для быстрого решения проблемы.
Кнопка воспроизведенияДжоджо Райт отсчитывает 20 самых популярных песен недели, каждую неделю к ним присоединяются специальные соведущие!
Кнопка воспроизведенияK92 Mornin’ Thang выходит в эфир по будням с 5:00 до 10:00 на радиостанции WXLK-FM в Роаноке, штат Вирджиния, и онлайн на сайте www. k9.2radio.com
Play ButtonРэй Макдональд изучает 20 лучших поп-синглов и альбомов в США по версии журнала Billboard.
Кнопка воспроизведенияДиджейские миксы для культуры. Жанры: Хип-хоп | R&B | Медленные джемы | Тверк | Сока | Афробиты | Амапьяно | Танцевальный зал | Рэп | Топ 40 | Душа | Dance
Play ButtonЕжедневные лучшие моменты дневного шоу Стива Райта на BBC Radio 2. Общение с лучшими гостями шоу-бизнеса.
Play ButtonПодкаст, балансирующий между забавным, неловким и возмутительным.
Кнопка воспроизведенияLondon ONE — первое радио IT-EN, которое чаще всего слушают в Великобритании и Европе. Базируется в Лондоне, предоставляет круглосуточные развлекательные программы, местные и международные новости для итальянцев, проживающих в Великобритании. «Блюз с пивом» и многое другое. Это канал № 2, посвященный всем музыкальным радиопередачам на 102.DLG Radio Orlando и Tune-In Radio. Будьте в стороне от живых выступлений и звонков по телефону…
Play ButtonРазвлекательное спортивное шоу Аделаиды, созданное в Аделаиде для Аделаиды. Сначала о больших спортивных историях, а также о самых больших спортивных мнениях и дебатах в городе с тремя легендами спорта в Южной Африке и Австралии: Берни Винсом, Грегом Блюеттом и Эндрю…
Узнать больше
Play ButtonПроведите ночь с Джексоном Блю , нон-стоп хитовая музыка и много веселья!
Кнопка воспроизведенияФитци и Виппа, каждый будний день с 6 до 9 утра на Nova. Если вы пропустите что-то интересное, не переживайте, вы всегда можете загрузить этот ежедневный подкаст, чтобы исправить ситуацию.
Кнопка «Воспроизвести»Потусить с Бекс после школы — много песен, историй и специальных гостей
Кнопка «Воспроизвести»Спасибо, что заглянули… в полдень я устраиваю обед по запросу K104. Это моя любимая часть дня для меня. В основном это все идет в течение одного часа. Позвоните мне… 1-877-GO-K1047.
Кнопка воспроизведенияСША
Кнопка воспроизведенияAlliance, OH
Кнопка воспроизведенияЯ развлекаю вас в течение рабочего дня с 10:00 до 15:00 на YES-FM уже 5 лет. Я родился в Майами, но вырос в Уилкс-Барре/Скрэнтон, штат Пенсильвания. Это звонит в колокол? Скрэнтон — это место, где должен располагаться офис на NBC. Я только что переехал…
Кнопка воспроизведенияКанзас-Сити, Миссури
Кнопка воспроизведенияАприлия, Италия
Кнопка воспроизведенияЭпплтон, Висконсин
Подробнее
BBC Radio 6 Music, BBC 6Music, UK | Бесплатное интернет-радио
Pet Shop Boys на BBC — памятные моменты Pet Shop Boys на BBC Radio, в том числе их сеанс Peel в 2002 году, замена Саймона Бейтса в 1991 году и интервью с Джо Уилли в 2016 году.
Can’t Sleep — 6 Music’s Artist In Residence — это путешествие в музыкальную душу артиста, основанное на теме или настроении.
Грубый Риз, Восторг и сумерки Грустно. — Gruff Rhys в лондонском Southbank в 2012 году, а также сессия, записанная Rapture в этот день (8 сентября) в 2011 году, и одна из Twilight Sad (19 августа 2014 года).
Island of Dreams — «Definitively Dusty» исследует музыку и мастерство одного из величайших британских певцов — Дасти Спрингфилд. В неслыханном архиве Дасти рассказывает свою историю.
Назад к спине эмо-бангеры — Самый большой выбор эмо-гимнов в городе, включая Paramore, Sum 41, Panic! на дискотеке и многое другое.
27.05.2023 — Ничего, кроме жизнерадостных инди-песен из чистого золота; Возвращение к любимым инди-мелодиям с небольшим количеством лучших будущих хитов.
Да Да Да, Гриан Чаттен, Roxy Music и другие! — 6 Music проведет вас через ранние часы, воспроизводя музыку подряд, а также эксклюзивные сеансы BBC.
29.05.2023 — Прославление танцевальной музыки разных десятилетий.
Два часа специально подобранной эмбиент-музыки, которая улучшит вашу концентрацию. Повысьте концентрацию с помощью этого тщательно подобранного двухчасового микса блаженных эмбиент-треков.
24.05.2023 — Столько записей, сколько сможем, включая сессии и концерты из архива BBC.
27.05.2023 — Вдохновленный вечеринками Нью-Йорка в прошлом.
Adi Oasis и вьетнамские ароматы — Cerys станет саундтреком к вашему идеальному воскресенью с эклектичным выбором. Керис беседует с певицей и продюсером франко-карибского происхождения Ади Оазис и узнает больше о вьетнамских вкусах от Уйен Луу.
With Heartworms — Крис Хокинс беседует с певцом и автором песен Джоджо Орме, также известным как Heartworms, о музыке, искусстве и моделях Airfix.
Ваш плейлист для дневной вечеринки с участием Афины Кугблену. К Крейгу присоединился стендап-комик, писатель, радио- и телеведущая Афина Кугблену, которая болтает о своем предстоящем выступлении на Hay Festival.
В сотрудничестве с Дайаной Росс и Марвином Гэем Crucial Vinyl подборки Дона пересекают время, пространство и жанры и включают три фрагмента из его Crucial Vinyl. На этой неделе он представляет Anchorsong, Nabihah Iqbal и The Kinks.
120 минут битов, которые помогут вам сконцентрироваться. Слушайте совершенно новые биты вместе с легендарными продюсерами в этом двухчасовом фокус-миксе. Включая инструментальные треки Ройсин Мерфи, Мэтта Уайльда, Nujabes и других.
Автор: Proc Fiscal.
Ваш комментарий будет первым