Как Яндекс распознаёт музыку с микрофона / Хабр
Поиск по каталогу музыки — это задача, которую можно решать разными путями, как с точки зрения пользователя, так и технологически. Яндекс уже довольно давно научился искать и по названиям композиций, и по текстам песен. На сказанные голосом запросы про музыку мы тоже умеем отвечать в Яндекс.Поиске под iOS и Android, сегодня же речь пойдёт о поиске по аудиосигналу, а если конкретно — по записанному с микрофона фрагменту музыкального произведения. Именно такая функция встроена в мобильное приложение Яндекс.Музыки:
В мире есть всего несколько специализированных компаний, которые профессионально занимаются распознаванием музыкальных треков. Насколько нам известно, из поисковых компаний Яндекс стал первым, кто стал помогать российскому пользователю в решении этой задачи. Несмотря на то, что нам предстоит ещё немало сделать, качество распознавания уже сопоставимо с лидерами в этой области. К тому же поиск музыки по аудиофрагменту не самая тривиальная и освещённая в Рунете тема; надеемся, что многим будет любопытно узнать подробности.
О достигнутом уровне качества
Базовым качеством мы называем процент валидных запросов, на которые дали релевантный ответ — сейчас около 80%. Релевантный ответ — это трек, в котором содержится запрос пользователя. Валидными считаем лишь те запросы из приложения Яндекс.Музыки, которые действительно содержат музыкальную запись, а не только шум или тишину. При запросе неизвестного нам произведения считаем ответ заведомо нерелевантным.
Технически задача формулируется следующим образом: на сервер поступает десятисекундный фрагмент записанного на смартфон аудиосигнала (мы его называем запросом), после чего среди известных нам треков необходимо найти ровно тот один, из которого фрагмент был записан. Если фрагмент не содержится ни в одном известном треке, равно как и если он вообще не является музыкальной записью, нужно ответить «ничего не найдено». Отвечать наиболее похожими по звучанию треками в случае отсутствия точного совпадения не требуется.
База треков
Как и в веб-поиске, чтобы хорошо искать, нужно иметь большую базу документов (в данном случае треков), и они должны быть корректно размечены: для каждого трека необходимо знать название, исполнителя и альбом. Как вы, наверное, уже догадались, у нас была такая база. Во-первых, это огромное число записей в Яндекс.Музыке, официально предоставленных правообладателями для прослушивания. Во-вторых, мы собрали подборку музыкальных треков, выложенных в интернете. Так мы получили 6 млн треков, которыми пользователи интересуются чаще всего.
Зачем нам треки из интернета, и что мы с ними делаем
Раз мы — зеркало интернета, мы собрали ID3-теги и дескрипторы каждого популярного в Сети трека, чтобы опознавать и те произведения, которых нет в базе Яндекс.Музыки. Хранить достаточно только эти метаданные — по ним мы показываем музыкальные видеоклипы, когда нашлись только записи из интернета.
Малоперспективные подходы
Как лучше сравнивать фрагмент с треками? Сразу отбросим заведомо неподходящие варианты.
- Побитовое сравнение. Даже если принимать сигнал напрямую с оптического выхода цифрового проигрывателя, неточности возникнут в результате перекодирования. А на протяжении передачи сигнала есть много других источников искажений: громкоговоритель источника звука, акустика помещения, неравномерная АЧХ микрофона, даже оцифровка с микрофона. Всё это делает неприменимым даже нечёткое побитовое сравнение.
- Водяные знаки. Если бы Яндекс сам выпускал музыку или участвовал в производственном цикле выпуска всех записей, проигрываемых на радио, в кафе и на дискотеках — можно было бы встроить в треки звуковой аналог «водяных знаков». Эти метки незаметны человеческому уху, но легко распознаются алгоритмами.
- Нестрогое сравнение спектрограмм. Нам нужен способ нестрогого сравнения. Посмотрим на спектрограммы оригинального трека и записанного фрагмента. Их вполне можно рассматривать как изображения, и искать среди изображений всех треков самую похожую (например, сравнивая как векторы с помощью одной из известных метрик, таких как L²):
Но в применении этого способа «в лоб» есть две сложности:
а) сравнение с 6 млн картинок — очевидно, дорогая операция. Даже огрубление полной спектрограммы, которое в целом сохраняет свойства сигнала, даёт несколько мегабайт несжатых данных.
б) оказывается что одни различия более показательны, чем другие.
В итоге, для каждого трека нам нужно минимальное количество наиболее характерных (т.е. кратко и точно описывающих трек) признаков.
Каким признакам не страшны искажения?
Основные проблемы возникают из-за шума и искажений на пути от источника сигнала до оцифровки с микрофона. Можно для разных треков сопоставлять оригинал с фрагментом, записанным в разных искусственно зашумлённых условиях — и по множеству примеров найти, какие характеристики лучше всего сохраняются. Оказывается, хорошо работают пики спектрограммы, выделенные тем или иным способом — например как точки локального максимума амплитуды. Высота пиков не подходит (АЧХ микрофона их меняет), а вот их местоположение на сетке «частота-время» мало меняется при зашумлении. Это наблюдение, в том или ином виде, используется во многих известных решениях — например, в Echoprint. В среднем на один трек получается порядка 300 тыс. пиков — такой объём данных гораздо более реально сопоставлять с миллионами треков в базе, чем полную спектрограмму запроса.
Но даже если брать только местоположения пиков, тождественность множества пиков между запросом и отрезком оригинала — плохой критерий. По большому проценту заведомо известных нам фрагментов он ничего не находит. Причина — в погрешностях при записи запроса.
Нам нужно найти во всей базе отрезок трека, наиболее похожий на наш запрос. То есть:
- сначала в каждом треке найти такое смещение по времени, где бы максимальное число пиков совпало с запросом;
- затем из всех треков выбрать тот, где совпадение оказалось наибольшим.
Для этого строим гистограмму: для каждой частоты пика, которая присутствует и в запросе, и в треке, откладываем +1 по оси Y в том смещении, где нашлось совпадение:
Трек с самой высоким столбцом в гистограмме и есть самый релевантный результат — а высота этого столбца является мерой близости между запросом и документом.
Борьба за точность поиска
Опыт показывает, что если искать по всем пикам равнозначно, мы будем часто находить неверные треки. Но ту же меру близости можно применять не только ко всей совокупности пиков документа, но и к любому подмножеству — например, только к наиболее воспроизводимым (устойчивым к искажениям). Заодно это и удешевит построение каждой гистограммы. Вот как мы выбираем такие пики.Отбор по времени: сначала, внутри одной частоты, по оси времени от начала к концу записи запускаем воображаемое «опускающееся лезвие». При обнаружении каждого пика, который выше текущего положения лезвия, оно срезает «верхушку» — разницу между положением лезвия и высотой свежеобнаруженного пика. Затем лезвие поднимается на первоначальную высоту этого пика. Если же лезвие не «обнаружило» пика, оно немного опускается под собственной тяжестью.
Разнообразие по частотам:
Отбор по частотам: затем, внутри одного временно́го интервала, среди всех частот, выбираем самые контрастные пики, т. е. самые большие локальные максимумы среди срезанных «верхушек».
При отборе пиков есть несколько параметров: скорость опускания лезвия, число выбираемых пиков в каждом временно́м интервале и окрестность влияния пиков на соседей. И мы подобрали такую их комбинацию, при которой остаётся минимальное число пиков, но почти все они устойчивы к искажениям.
Ускорение поиска
Итак, мы нашли метрику близости, хорошо устойчивую к искажениям. Она обеспечивает хорошую точность поиска, но нужно ещё и добиться, чтобы наш поиск быстро отвечал пользователю. Для начала нужно научиться выбирать очень малое число треков-кандидатов для расчёта метрики, чтобы избежать полного перебора треков при поиске.
Повышение уникальности ключей: Можно было бы построить индекc
Частота пика
→ (Трек, Местоположение в нём)
.
Увы, такой «словарь» возможных частот слишком беден (256 «слов» — интервалов, на которые мы разбиваем весь частотный диапазон). Большинство запросов содержит такой набор «слов», который находится в большинстве из наших 6 млн документов. Нужно найти более отличительные (discriminative) ключи — которые с большой вероятностью встречаются в релевантных документах, и с малой в нерелевантных.
Для этого хорошо подходят пары близко расположенных пиков. Каждая пара встречается гораздо реже.
У этого выигрыша есть своя цена — меньшая вероятность воспроизведения в искажённом сигнале. Если для отдельных пиков она в среднем P, то для пар — P
Оценка выигрыша
Например, если включать каждый пик в 8 пар и «упаковать» каждую пару в 20 бит (тогда число уникальных значений пар возрастает до ≈1 млн), то:
- число ключей в запросе растёт в 8 раз
- число документов на ключ уменьшается в ≈4000 раз: ≈1 млн/256
- итого, число напрасно рассмотренных документов уменьшается в ≈500 раз: ≈4000/8
Отобрав с помощью пар малое число документов, можно переходить к их ранжированию. Гистограммы можно с тем же успехом применять к парам пиков, заменив совпадение одной частоты на совпадение обеих частот в паре.
Двухэтапный поиск: для дополнительного уменьшения объёма расчётов мы разбили поиск на два этапа:
- Делаем предварительный отбор (pruning) треков по очень разреженному набору наиболее контрастных пиков. Параметры отбора подбираются так, чтобы максимально сузить круг документов, но сохранить в их числе наиболее релевантный результат
- Выбирается гарантированно наилучший ответ — для отобранных треков считается точная релевантность по более полной выборке пиков, уже по индексу с другой структурой:
Трек
→(Пара частот, Местоположение в треке)
.
Такая двухэтапность ускорила поиск в 10 раз. Интересно, что в 80% случаев результат даже огрублённого ранжирования на первом этапе совпадает с самым релевантным ответом, полученным на втором этапе.
В результате всех описанных оптимизаций вся база, необходимая для поиска, стала в 15 раз меньше, чем сами файлы треков.
Индекс в памяти: И наконец, чтобы не ждать обращения к диску на каждый запрос, весь индекс размещён в оперативной памяти и распределён по множеству серверов, т.к. занимает единицы терабайт.
Ничего не найдено?
Случается, что для запрошенного фрагмента либо нет подходящего трека в нашей базе, либо фрагмент вообще не является записью какого-либо трека. Как принять решение, когда лучше ответить «ничего не найдено», чем показать «наименее неподходящий» трек? Отсекать по какому-нибудь порогу релевантности не удаётся — для разных фрагментов порог различается многократно, и единого значения на все случаи просто не существует. А вот если отсортировать отобранные документы по релевантности, форма кривой её значений даёт хороший критерий. Если мы знаем релевантный ответ, на кривой отчётливо видно резкое падение (перепад) релевантности, и напротив — пологая кривая подсказывает, что подходящих треков не найдено.
Что дальше
Как уже говорилось, мы в начале большого пути. Впереди целый ряд исследований и доработок для повышения качества поиска: например, в случаях искажения темпа и повышенного шума. Мы обязательно попробуем применить машинное обучение, чтобы использовать более разнообразный набор признаков и автоматически выбирать из них наиболее эффективные.
Кроме того, мы планируем инкрементальное распознавание, т.е. давать ответ уже по первым секундам фрагмента.
Другие задачи аудиопоиска по музыке
Область информационного поиска по музыке далеко не исчерпывается задачей с фрагментом с микрофона. Работа с «чистым», незашумлённым сигналом, претерпевшим только пережатие, позволяет находить дублирующиеся треки в обширной коллекции музыки, а также обнаруживать потенциальные нарушения авторского права. А поиск неточных совпадений и разного вида схожести — целое направление, включающее в себя поиск кавер-версий и ремиксов, извлечение музыкальных характеристик (ритм, жанр, композитор) для построения рекомендаций, а также поиск плагиата.
Отдельно выделим задачу поиска по напетому отрывку. Она, в отличие от распознавания по фрагменту музыкальной записи, требует принципиально другого подхода: вместо аудиозаписи, как правило, используется нотное представление произведения, а зачастую и запроса. Точность таких решений получается сильно хуже (как минимум, из-за несопоставимо бо́льшего разброса вариаций запроса), а поэтому хорошо они опознают лишь наиболее популярные произведения.
Что почитать
- Avery Wang: «An Industrial-Strength Audio Search Algorithm», Proc. 2003 ISMIR International Symposium on Music Information Retrieval, Baltimore, MD, Oct. 2003. Эта статья впервые (насколько нам известно) предлагает использовать пики спектрограммы и пары пиков как признаки, устойчивые к типичным искажениям сигнала.
- D. Ellis (2009): «Robust Landmark-Based Audio Fingerprinting». В этой работе даётся конкрентый пример реализации отбора пиков и их пар с помощью «decaying threshold» (в нашем вольном переводе — «опускающегося лезвия»).
- Jaap Haitsma, Ton Kalker (2002): «A Highly Robust Audio Fingerprinting System». В данной статье предложено кодировать последовательные блоки аудио 32 битами, каждый бит описывает изменение энергии в своем диапазоне частот. Описанный подход легко обобщается на случай произвольного кодирования последовательности блоков аудиосигнала.
- Nick Palmer: «Review of audio fingerprinting algorithms and looking into a multi-faceted approach to fingerprint generation». Основной интерес в данной работе представляет обзор существующих подходов к решению описанной задачи. Также описаны этапы возможной реализации.
- Shumeet Baluja, Michele Covell: «Audio Fingerprinting: Combining Computer Vision & Data Stream Processing». Статья, написанная коллегами из Google, описывает подход на основе вейвлетов с использованием методов компьютерного зрения.
- Arunan Ramalingam, Sridhar Krishnan: «Gaussian Mixture Modeling Using Short Time Fourier Transform Features For Audio Fingerprinting» (2005). В данной статье предлагается описывать фрагмент аудио с помощью модели Гауссовых смесей поверх различных признаков, таких как энтропия Шеннона, энтропия Реньи, спектрольные центроиды, мэлкепстральные коэффициенты и другие. Приводятся сравнительные значения качества распознавания.
- Dalibor Mitrovic, Matthias Zeppelzauer, Christian Breiteneder: «Features for Content-Based Audio Retrieval». Обзорная работа про аудио-признаки: как их выбирать, какими свойствами они должны обладать и какие существуют.
- Natalia Miranda, Fabiana Piccoli: «Using GPU to Speed Up the Process of Audio Identification». В статье предлагается использование GPU для ускорения вычисления сигнатур.
- Shuhei Hamawaki, Shintaro Funasawa, Jiro Katto, Hiromi Ishizaki, Keiichiro Hoashi, Yasuhiro Takishima: «Feature Analysis and Normalization Approach for Robust Content-Based Music Retrieval to Encoded Audio with Different Bit Rates.» MMM 2009: 298-309. В статье акцентируется внимание на повышении робастности представления аудиосигнала на основе мел-кепстральных коэффициентов (MFCC). Для этого используется метод нормализации кепстра (CMN).
как найти песню с помощью ПК
Бывали ли у вас такие случаи, что вам понравилась красивая мелодия, но вы не знали, как она называется? Наверняка, с каждым такое случалось. Приложение Шазам онлайн создано специально для этого. Оно находится в свободном доступе, и вы можете скачать его в Play Market или Apple Store. Утилиту установили более ста миллионов человек. Но как заставить её работать на ПК, если у вас нет смартфона или планшета?
Содержимое статьи
- 1 Что такое Шазам?
- 2 Как установить Shazam на компьютер
- 3 Как найти песню по звуку онлайн с помощью Шазам
- 4 Другие программы для онлайн распознавания музыки
- 4.1 Audiggle
- 4.2 Midomi
- 4.3 Audiotag
- 4.4 Musipedia
- 4.5 Tunatic
- 5 Выводы
Что такое Шазам?
Программа Шазам онлайн – помогает найти песни, которых вы не знаете. С помощью микрофона она анализирует звук и подбирает подобные, а после этого вы узнаете название композиции.
С песней вы получаете возможность прослушать её отрывок, посмотреть видеоклипы на эту песню, если они есть на Youtube. Если вы захотите, есть возможность поделиться своей находкой в социальных сетях, купить или прослушать мелодию на различных музыкальных сервисах.
С помощью Шазам вы можете находить песню, которая сейчас играет по радио или в фильме, нужно всего лишь поднести телефон к источнику звука, после чего вы получите точные результаты. Если сразу не получилось – нужно попробовать вновь.
Слово «Шазам» в англоязычном мире характеризует что-то волшебное, подобно русскому аналогу – «Абра-кадабра». Разработчики сравнивают работу программы с магическим обрядом.
Как установить Shazam на компьютер
Программа, конечно, хорошая, но есть одна существенная проблема – она доступна только для смартфонов на Android, iOS и Windows Phone. Но всё же есть способ пользоваться ею на ПК.
Чтобы найти песню через Шазам онлайн с компьютера, нужно установить на него операционную систему Андройд или его эмулятор. Всё достаточно просто, сейчас есть целый ряд программ для запуска Android приложений:
- Nox player – абсолютно бесплатная и доступна для скачивания с официального сайта.
- Bluestacks – условно бесплатный софт с некоторыми ограничениями.
Это два самых популярных эмулятора андройд на момент написания статьи. Скачайте и установите себе любой из них. После запуска эмулятора вы увидите полноценный андроид, сейчас актуальная версия Nox player эмулирует Android 5. Запустите «плей маркет» и авторизуйтесь через свой гугл-аккаунт, если у вас его нет – создайте, чтобы скачать бесплатно Шазам онлайн с компьютера.
После скачивания и установки приложения вам станет доступен Shazam для компьютера.
Как найти песню по звуку онлайн с помощью Шазам
Вы уже скачали Шазам онлайн для компьютера? Тогда пора приступать к её освоению. Запустите программу «Шазам» – вам предстанет светло-синий интерфейс и круглая кнопка с логотипом программы в центре. Под ней есть подпись «Shazamнуть». Когда играет незнакомая песня, нажмите на кнопку – Шазам онлайн начнет «слушать» песню несколько секунд – Шазам на ПК ищет песню онлайн. После этого вы увидите название этой песни, ссылку на клип, если он есть на ютуб. К тому же Шазам поможет поделиться информацией в социальных сетях – расскажите о ней друзьям!
Пользоваться приложением Шазам очень просто. Если после выдачи результатов вы захотели еще раз найти песню онлайн через микрофон – в правом нижнем углу будет уменьшенная кнопка активации поиска.
Для работы приложения требуется подключение к сети интернет.
Другие программы для онлайн распознавания музыки
Существуют и другие сервисы для распознавания мелодий в браузере или через приложение для ПК, у которых такая же функциональность, как у Шазам.
Мы составили ТОП 5 аналогов Shazam на pc.
Audiggle
Бесплатная программа для определения автора и названия музыкальной композиции; есть недостаток – нужно пройти регистрацию, однако она занимает крайне мало времени.
Midomi
Поможет найти песню через браузер и микрофон. Нужно зайти на сайт Midomi.com, нажать на «Click and sing», подождать около 10 секунд и нажать «Stop», возможно, перед этим вас попросят предоставить доступ к микрофону.
Audiotag
Сайт работает по другому принципу: вам нужно вставить в её окно ссылку или загрузить отрезок песни, длиной не менее 15 секунд, после чего она выдаст результат.
Musipedia
Ресурс для поиска музыки разными способами: вы можете вписать ноты мелодии, наиграть на виртуальной клавиатуре, настучать её ритм и другое. Более сложный способ, но выдаёт массу подобных результатов. Отлично работает с классикой.
Tunatic
Программа отечественной разработки, на её интернет-странице можно скачать архив, в котором будет русская версия программы, не требующая инсталляции. Принцип работы схож с Шазам, но есть некоторые проблемы с распознаванием инструментальной музыки.
Выводы
Найти название неизвестной мелодии в 21 веке очень просто, установить Шазам на компьютер тоже легко – вы сможете распознавать песни, как дома, так и в общественных местах, со своего смартфона или ноутбука. Для этого достаточно нажать одну клавишу.
Если вы не хотите использовать эмулятор андройд – пользуйтесь аналогами для ПК, к сожалению, они не настолько удобны, как Shazam, но выполняют одинаковую задачу – поиск музыки по звуку.
BirdNET Sound ID — Самый простой способ идентифицировать птиц по звуку.
Идентификация птиц по звуку. Помощь науке и сохранению.
Как компьютеры могут научиться распознавать птиц по звукам? Центр природоохранной биоакустики К. Лизы Янг в Корнеллской лаборатории орнитологии и кафедра медиаинформатики Хемницкого технологического университета пытаются найти ответ на этот вопрос. Наши исследования в основном сосредоточены на обнаружении и классификации птичьих звуков с помощью машинного обучения — мы хотим помочь экспертам и гражданским ученым в их работе по мониторингу и защите наших птиц. BirdNET — это исследовательская платформа , целью которой является распознавание птиц по звуку в масштабе. Мы поддерживаем различное оборудование и операционные системы, такие как микроконтроллеры Arduino, Raspberry Pi, смартфоны, веб-браузеры, рабочие станции и даже облачные сервисы. BirdNET — это общественная научная платформа , а также программное обеспечение для анализа очень больших коллекций аудио. BirdNET стремится предоставить инновационных инструментов для защитников природы, биологов и орнитологов.
На этой странице представлены некоторые из наших публичных демонстраций, в том числе демонстрация в прямом эфире, демонстрация для анализа аудиозаписей, приложение для Android и iOS и его визуализация отправленных материалов. Все демонстрации основаны на искусственной нейронной сети , которую мы называем BirdNET . Мы постоянно улучшаем функции и производительность наших демоверсий — пожалуйста, регулярно проверяйте нас.
В настоящее время BirdNET может идентифицировать около 3000 наиболее распространенных в мире видов. В ближайшее время мы добавим больше видов.
Хотите использовать BirdNET для анализа большого набора данных? Перейдите в наш репозиторий GitHub, чтобы загрузить BirdNET.
Есть вопросы? Пожалуйста, сообщите нам об этом (мы говорим по-английски и по-немецки): [email protected]
Вы когда-нибудь слышали звук птицы, который не могли определить? Узнайте, как использовать наше приложение для смартфонов BirdNET, чтобы идентифицировать своих загадочных птиц во время путешествия по Сапсакерскому лесу!
Узнайте, как идентифицировать птиц по звуку, с помощью бесплатного мобильного приложения и веб-сайта BirdNET Корнельской лаборатории орнитологии. Достижения в области машинного обучения упрощают идентификацию птиц по их звукам. Вопросы и ответы с разработчиком BirdNET Стефаном Калем.
Демонстрация прямой трансляции обрабатывает живой аудиопоток с микрофона за пределами Корнелльской лаборатории орнитологии, расположенной в заповеднике Сапсакер-Вудс в Итаке, штат Нью-Йорк. В этой демонстрации используется искусственная нейронная сеть, обученная на 180 наиболее распространенных видах в районе Сапсакерского леса. Наша система разбивает аудиопоток на сегменты, преобразует эти сегменты в спектрограммы (визуальные представления аудиосигнала) и передает спектрограммы через сверточную нейронную сеть почти в реальном времени. Веб-страница объединяет вероятности видов за последние пять секунд в одно предсказание. Если вероятность для одного вида достигает 15% или выше, вы можете увидеть маркер, указывающий предполагаемое положение соответствующего звука в прокручиваемой спектрограмме прямой трансляции. Эта демонстрация предназначена для больших экранов.
Перейдите по этой ссылке, чтобы просмотреть демонстрацию.
Надежная идентификация видов птиц в записанных аудиофайлах станет революционным инструментом для исследователей, специалистов по охране природы и орнитологов. Эта демонстрация предоставляет веб-интерфейс для загрузки и анализа аудиозаписей. Эта демонстрация, основанная на искусственной нейронной сети, включающей почти 1000 наиболее распространенных видов Северной Америки и Европы, показывает наиболее вероятные виды для каждой секунды записи. Обратите внимание: нам необходимо перенести аудиозаписи на наши серверы для обработки файлов. Эта демонстрация предназначена для больших экранов.
Перейдите по этой ссылке, чтобы просмотреть демонстрацию.
Щелкните здесь, чтобы загрузить демо-запись.
Это приложение позволяет вам записывать файл с помощью встроенного микрофона вашего устройства Android или iOS, а искусственная нейронная сеть сообщит вам наиболее вероятные виды птиц, присутствующие в вашей записи. Мы используем встроенную функцию звукозаписи смартфонов и планшетов, а также GPS-сервис, чтобы делать прогнозы на основе местоположения и даты. Попробуйте! Обратите внимание: нам необходимо перенести аудиозаписи на наши серверы для обработки файлов. Качество записи может отличаться в зависимости от вашего устройства. Внешние микрофоны, вероятно, повысят качество записи.
Перейдите по этой ссылке, чтобы загрузить приложение для Android.
Перейдите по этой ссылке, чтобы загрузить приложение для iOS.
Перейдите по этой ссылке, чтобы просмотреть представленные материалы в реальном времени.
Следите за нашим ботом в Твиттере.
Примечание. Если вы столкнулись с какой-либо нестабильностью или у вас есть какие-либо вопросы относительно функциональности, сообщите нам об этом. В ближайшее время мы добавим новые функции, вы будете получать все обновления автоматически.
Лаборатория орнитологии Корнелла
Лаборатория Корнелла, занимающаяся продвижением понимания и защиты мира природы, объединяет людей из всех слоев общества, чтобы делать новые научные открытия, делиться идеями и стимулировать природоохранную деятельность. Наш Центр птиц и биоразнообразия Джонсона в Итаке, штат Нью-Йорк, является глобальным центром изучения и защиты птиц и биоразнообразия, а также центром миллионов гражданских научных наблюдений со всего мира.
Нажмите на эту ссылку, чтобы посетить наш веб-сайт.
Центр природоохранной биоакустики К. Лизы Янг
Центр природоохранной биоакустики им. К. Лизы Янг, базирующийся в Корнеллской лаборатории орнитологии, собирает и интерпретирует звуки природы, разрабатывая и применяя инновационные технологии природоохраны в различных экологических масштабах, чтобы вдохновлять и информировать сохранение дикой природы и среды обитания. Наша междисциплинарная команда работает с сотрудниками над наземными, водными и морскими биоакустическими исследовательскими проектами, направленными на решение проблем сохранения во всем мире.
Нажмите на эту ссылку, чтобы посетить наш веб-сайт.
Технологический университет Хемница
Технологический университет Хемница является государственным университетом в Хемнице, Германия. Это третий по величине университет в Саксонии, в котором обучается более 11 000 студентов. Он был основан в 1836 году как Königliche Gewerbeschule (Королевский торговый колледж), а в 1963 году был преобразован в Technische Hochschule, технологический университет. TU Chemnitz, в котором работает около 1500 сотрудников в области науки, техники и управления, считается одним из самых важных работодателей в область, край.
Нажмите на эту ссылку, чтобы посетить наш веб-сайт.
Кафедра медиаинформатики
Кафедра медиаинформатики Хемницкого технологического университета занимается контент-анализом больших разнородных наборов данных с 2007 года. Кроме того, кафедра медиаинформатики проводит исследования и преподает в области человеко-компьютерное взаимодействие с особым акцентом на критический и инклюзивный дизайн взаимодействия, а также на новые (мобильные) способы взаимодействия.
Нажмите на эту ссылку, чтобы посетить наш веб-сайт.
Стефан Каль
Я работаю постдоком в Центре природоохранной биоакустики им. К. Лизы Янг в Корнельской лаборатории орнитологии и Хемницком технологическом университете. Моя работа включает в себя разработку приложений ИИ с использованием сверточных нейронных сетей для биоакустики, мониторинга окружающей среды и дизайна мобильного взаимодействия человека с компьютером. Я главный разработчик BirdNET и наших демонстраторов.
Ашакур Рахаман
Я работаю аналитиком Центра природоохранной биоакустики им. К. Лизы Ян в Лаборатории орнитологии Корнелла и менеджером сообщества приложения BirdNET. Я активно участвую в охране окружающей среды посредством научных исследований и участия общественности. Понимание взаимосвязи между природными звуками и воздействием антропогенных факторов на коммуникативное пространство животных — моя страсть.
Коннор Вуд
Мой основной интерес как постдока в Центре природоохранной биоакустики К. Лизы Янг в Лаборатории орнитологии Корнелла заключается в понимании того, как популяции диких животных и экологические сообщества реагируют на изменения окружающей среды, и, таким образом, способствуя их сохранению. . Я использую аудиоданные, собранные во время крупномасштабных проектов мониторинга, для изучения сообществ птиц Северной Америки.
Кристин Бранк
В качестве постдока в Центре природоохранной биоакустики К. Лизы Янг я использую биоакустические данные о птичьих сообществах в калифорнийской Сьерра-Неваде, чтобы смоделировать заселенность нескольких основных видов птиц в ответ на среду обитания и огонь условия. Эти модели и данные будут использоваться менеджерами для обоснования решений по сохранению в будущем, особенно в условиях неопределенного климата.
Амир Дадхах
Я разработчик программного обеспечения и специалист по информатике на кафедре медиаинформатики Хемницкого технологического университета, специализируюсь на прикладной информатике и дизайне, ориентированном на человека. Я ведущий разработчик iOS-версии приложения BirdNET.
Хольгер Клинк
Я Джон У. Фитцпатрик, директор Центра природоохранной биоакустики им. К. Лизы Ян в Лаборатории орнитологии Корнелла, научный сотрудник Центра устойчивого развития Аткинсона в Корнельском университете и адъюнкт доцент Орегонского государственного университета. Мои текущие исследования сосредоточены на разработке и применении аппаратных и программных средств для пассивно-акустического мониторинга наземных и морских экосистем и биоразнообразия.
Пожертвовать
BirdNET — это исследовательский проект, финансируемый извне. Мы хотим разработать новые функции, добавить больше видов, расширить наши услуги и, самое главное, предоставить отличный опыт для орнитологов и тех, кто хочет ими стать.
Своим пожертвованием вы можете помочь нам в достижении этих целей.
Каждая сумма ценна! Это помогает нам покрывать расходы на сервер и продолжать наши исследования.
Сделать пожертвование
Совместная работа
В настоящее время вы изучаете тему, в которой BirdNET может быть полезен, или у вас есть идея для исследовательского проекта? Дайте нам знать! Вы хотели бы поддержать нас в области разработки программного обеспечения и приложений?
Свяжитесь с нами.
Мы открыты для ваших идей и хотели бы поговорить с вами.
Отправьте нам электронное письмо: [email protected]
Вуд, К. М., Кал, С. , Чаон, П., Пири, М. З., и Клинк, Х. (2021). Охват съемки, продолжительность записи и состав сообщества влияют на наблюдаемое видовое богатство при пассивных акустических съемках. Методы экологии и эволюции . [PDF]
Каль, С. , Вуд, К. М. , Эйбл, М., и Клинк, Х. (2021). BirdNET: решение для глубокого обучения для мониторинга разнообразия птиц. Экологическая информатика , 61 , 101236. [Источник]
Каль, С., Дентон, Т., Клинк, Х. , Глотин, Х., Гоо, Х., Веллинга, В. П., … и Джоли, А. (2021). Обзор BirdCLEF 2021: идентификация криков птиц в записях звукового ландшафта. В CLEF 2021 (Рабочие заметки) . [PDF]
Джоли, А., Гоо, Х., Каль, С. , Пичек, Л., Лориел, Т., Коул, Э., … и Мюллер, Х. (2021). Обзор LifeCLEF 2021: оценка идентификации видов и прогнозирования их распространения на основе машинного обучения. In Международная конференция Форума межъязыковой оценки европейских языков (стр. 371-393). Спрингер, Чам. [PDF]
Каль, С. , Клапп, М., Хоппинг, В., Гоо, Х., Глотин, Х., Планке, Р., … и Джоли, А. (2020). Обзор BirdCLEF 2020: распознавание звуков птиц в сложных акустических условиях. В CLEF 2020 (Рабочие заметки) . [PDF]
Джоли, А., Гоо, Х., Каль, С. , Денеу, Б., Серважан, М., Коул, Э., … и Лориел, Т. (2020). Обзор LifeCLEF 2020: системно-ориентированная оценка автоматизированной идентификации видов и прогнозирования их распространения. В Международная конференция Форума межъязыковой оценки европейских языков (стр. 342–363). Спрингер, Чам. [PDF]
Каль, С. (2020). Идентификация птиц по звуку: широкомасштабное распознавание акустических событий для мониторинга активности птиц. Диссертация. Хемницкий технологический университет, Хемниц, Германия. [PDF]
Каль, С. , Штётер, Ф. Р., Гоо, Х., Глотин, Х., Планке, Р., Веллинга, В. П., и Джоли, А. (2019). Обзор BirdCLEF 2019: крупномасштабное распознавание птиц в звуковых ландшафтах.
In CLEF 2019 (Рабочие заметки) . [PDF]
Джоли, А., Гоо, Х., Ботелла, К., Каль, С. , Серважан, М., Глотин, Х., … и Мюллер, Х. (2019). Обзор LifeCLEF 2019: идентификация амазонских растений, птиц Южной и Северной Америки и прогнозирование ниш.
In Международная конференция Форума межъязыковой оценки европейских языков (стр. 387-401). Спрингер, Чам. [PDF]
Жоли, А., Гоо, Х., Ботелла, К., Каль, С. , Пупар, М., Серважан, М., … и Шлютер, Дж. (2019). LifeCLEF 2019: Проблемы идентификации и прогнозирования биоразнообразия.
В Европейская конференция по информационному поиску (стр. 275-282). Спрингер, Чам. [PDF]
Каль, С. , Вильгельм-Штайн, Т., Клинк, Х. , Коверко, Д., и Эйбл, М. (2018). Распознавание птиц по звуку — базовая система BirdCLEF 2018 года.
Препринт arXiv arXiv:1804.07177 . [PDF]
Goëau, H., Kahl, S. , Glotin, H., Planqué, R., Vellinga, WP, & Joly, A. (2018). Обзор BirdCLEF 2018: идентификация моновидов и звуковых ландшафтов птиц.
В CLEF 2018 (Рабочие заметки) . [PDF]
Каль, С. , Вильгельм-Штайн, Т., Клинк, Х. , Коверко, Д., и Эйбл, М. (2018). Базовый уровень для крупномасштабной идентификации видов птиц в полевых записях.
В CLEF 2018 (Рабочие заметки) . [PDF]
Каль, С. , Вильгельм-Штайн, Т., Хусейн, Х., Клинк, Х. , Коверко, Д., Риттер, М., и Эйбл, М. (2017). Крупномасштабная классификация звуков птиц с использованием сверточных нейронных сетей.
В CLEF 2018 (Рабочие заметки) . [PDF]
Идентификатор звука : Справочный центр
Желтогорлая славка © Ryan Sanderson / Macaulay Library
Кто поет? Merlin Bird ID может рассказать вам! Просто поднесите телефон, коснитесь записи, и вы получите предложения в режиме реального времени, а также записи предлагаемых видов, которые вы можете воспроизвести, чтобы сравнить с тем, что вы слышите, для подтверждения личности.
Мерлин поможет вам выучить звуки птиц! Мерлин использует тысячи записей, чтобы выучить вокализацию каждого вида птиц. Наблюдайте, как появляются предложения, и отмечайте высоту и характер пения каждой птицы.
Распознать птиц по звуку непросто. Звуки некоторых птиц очень похожи, и лучший способ узнать это — увидеть птицу, которая поет.
Предложение от Мерлина — это только начало. Вы решаете, подходят ли предложения Мерлина для вашей птицы. Обязательно сравните вашу птицу с примерами звуков Мерлина и сведениями о видах.
Быстрые ссылки
Как получить функцию Sound ID в Merlin Bird ID?
Я вижу сообщение «Невозможно начать сеанс записи», что не так?
Что произойдет, если Мерлин не сможет идентифицировать птицу на записи?
Мерлин всегда прав?
Какие виды можно идентифицировать с помощью Sound ID? Когда Sound ID будет доступен для моего региона?
Как я могу помочь расширить и улучшить Merlin Bird ID?
Работает в автономном режиме?
Могу ли я использовать Sound ID на настольном компьютере?
Управляйте своими записями
Записи автоматически передаются в библиотеку Маколея? Могу ли я поделиться своими записями с eBird и библиотекой Маколея?
Где на моем устройстве хранятся записи?
Как удалить запись?
Какой длины запись я могу сделать или импортировать?
Могу ли я экспортировать сделанные мной записи?
Могу ли я импортировать записи, сделанные с помощью другого приложения?
Как я могу улучшить свои записи?
Должен ли я использовать внешний микрофон для записи птиц?
Какие типы аудиофайлов можно импортировать в Merlin Bird ID?
Как передать записи с моего компьютера в приложение Merlin Bird ID?
Как получить функцию Sound ID в Merlin Bird ID?
Начните с загрузки Merlin (это бесплатно!) После установки приложения нажмите «Получить идентификатор звука», чтобы активировать функцию идентификатора звука. Если на вашем устройстве уже установлен Merlin, просто зайдите в App Store или Google Play, чтобы загрузить последнее обновление.
Я вижу сообщение «Невозможно начать сеанс записи» — что не так?Если вы видите эту ошибку, убедитесь, что Merlin Bird ID имеет разрешение на доступ к микрофону вашего устройства. В iOS выберите «Настройки» > «Конфиденциальность» > «Микрофон», затем установите переключатель в положение «Вкл.» рядом с Merlin Bird ID. На Android найдите в настройках значка увеличительного стекла «Разрешение», чтобы найти соответствующее меню для изменения разрешений приложения. Если это не сработает, удалите и переустановите Merlin.
Что произойдет, если Мерлин не сможет идентифицировать птицу на записи?Попробуйте приблизиться к птице, не тревожа ее, и повторите попытку записи. Если в Merlin по-прежнему нет возможных совпадений, возможно, виды, которые вы пытаетесь записать, не поддерживаются в Merlin. В этом случае вы можете просмотреть вероятные виды для вашего региона в Explore Birds, прослушать предоставленные записи и прочитать текст справки по идентификации, чтобы увидеть, есть ли подходящие совпадения.
Мерлин всегда прав?
Нет. Мерлин показывает список возможных птиц на основе записанных вами песен и криков и сопоставляет его с птицами, которые вероятны в вашем районе. Исследуйте совпадения, предоставленные Мерлином, и сравните предоставленные аудиозаписи, чтобы увидеть, соответствуют ли они вашей птице. Мерлин — отличный компаньон для птиц, который подсказывает, какие виды более вероятны, но он полагается на вас, чтобы подтвердить то, что вы слышите или видите.
Какие виды может идентифицировать Sound ID? Когда Sound ID будет доступен для моего региона?Sound ID в настоящее время поддерживает более 450 птиц в США и Канаде, 250 видов в Западной Палеарктике, и будет расширяться по всему миру, так как наша коллекция записей, переданных пользователями eBird в библиотеку Маколея, продолжает расти. Алгоритмам звуковой идентификации требуется не менее 100 записей для вида, которые включают в себя различные звуки, чтобы иметь возможность последовательно идентифицировать этот вид. Идентификатор звука будет часто обновляться по мере того, как команда обучает компьютер распознавать все больше и больше звуков птиц. Вы можете внести свой вклад, записав обычных птиц в вашем районе и загрузив их в свои контрольные списки eBird.
Как я могу помочь расширить и улучшить Merlin Bird ID?Merlin Bird ID — это ресурс, созданный сообществом и основанный на данных и медиафайлах, собранных сотнями тысяч орнитологов по всему миру! Если вы живете в районе, не охваченном Sound ID, лучше всего внести свой вклад, записав песни и крики птиц вокруг вас и загрузив их в контрольные списки eBird. Орнитологи, которые являются экспертами в распознавании птиц по их песням и крикам, также могут внести свой вклад, комментируя аудиозаписи в библиотеке Маколея.
Работает ли он в автономном режиме?Да, Merlin Bird ID работает в автономном режиме, поэтому независимо от того, как далеко вы находитесь от сотовой связи, вы сможете записать звуки птиц и получить список возможных совпадений. Для достижения наилучших результатов убедитесь, что службы определения местоположения включены, даже если вы не в сети.
Могу ли я использовать Sound ID на настольном компьютере?Нет, функции фотоидентификации и звуковой идентификации в Merlin Bird ID доступны только для смартфонов и планшетов Android и iOS. Вы можете идентифицировать птиц, ответив на несколько простых вопросов в Интернете по адресу https://merlinweb. allaboutbirds.org/
Управляйте своими записями Записи автоматически передаются в библиотеку Маколея? Могу ли я поделиться своими записями с eBird и библиотекой Маколея?Записи не передаются автоматически с вашего устройства. При желании вы можете поделиться записями, сделанными с помощью Sound ID, с eBird и библиотекой Маколея, экспортировав их и вручную добавив в контрольный список eBird. Чтобы узнать, как это сделать, ознакомьтесь с нашими рекомендациями по загрузке медиафайлов. В будущем вы сможете отправлять свои записи прямо с телефона.
Где на моем устройстве хранятся записи?Файлы хранятся в приложении в разделе «Мои звукозаписи». Вы можете экспортировать или делиться записями, которые вы изучаете. На Android вы также можете получить доступ к своим записям из файловой системы в разделе «Музыка» > «Мерлин». Эта папка Merlin будет содержать все звуковые записи, сделанные с помощью Merlin на вашем устройстве.
Как удалить запись?Перейдите в раздел «Мои звукозаписи» в главном меню Sound ID. На iOS , вы можете провести пальцем влево по файлу, чтобы удалить определенную запись. Нажмите на запись, а затем откройте меню редактирования — это еще один способ найти кнопку удаления. На Android нажмите и удерживайте запись в меню «Мои звукозаписи», чтобы удалить ее, или откройте запись и коснитесь значка удаления. На Android вы также можете получить доступ к своим записям из файловой системы в разделе «Музыка» > «Мерлин». Эта папка Merlin будет содержать все звуковые записи, сделанные с помощью Merlin на вашем устройстве.
Какой длины запись я могу сделать или импортировать?Merlin Sound ID дает наилучшие результаты при записи продолжительностью 10 минут или меньше. Как только вы достигнете этой длины, Мерлин выведет уведомление, чтобы спросить, хотите ли вы остановить запись. Вы можете создавать и импортировать более длинные записи, но учтите, что они могут загружаться медленнее.
Могу ли я экспортировать сделанные мной записи?Да, просто нажмите кнопку «Поделиться», чтобы экспортировать или поделиться своей записью через текст или любое приложение, которое поддерживает обмен файлами.
Могу ли я импортировать записи, сделанные с помощью другого приложения?Да. Чтобы идентифицировать птиц в записях, сделанных с помощью других устройств, просто нажмите «импортировать» и выберите аудиофайл, и Merlin Bird ID предоставит вам список возможных птиц. Вы также можете использовать опцию обмена или экспорта в других приложениях, чтобы отправить аудиофайл непосредственно в Merlin.
Как я могу улучшить свои записи?Один из лучших способов улучшить качество записи — приблизиться к звуку, который вы слышите, но делать это нужно с осторожностью. Медленно и осторожно подойдите к птице, которую хотите записать, но будьте осторожны, чтобы не изменить ее поведение и не заставить ее уйти. Также помните, что вы находитесь ближе всего к микрофону, поэтому ваши движения будут улавливаться и звучать громче, чем птица, которую вы пытаетесь записать. Старайтесь не двигаться во время записи! Прочтите дополнительные советы по записи.
Нужно ли использовать внешний микрофон для записи птиц?Различные внешние микрофоны доступны специально для смартфонов и совместимы с Merlin. Большинство из них настолько малы, что не имеют большого значения по сравнению со встроенными микрофонами смартфонов. В целом, использование хорошей техники записи имеет большее значение для записи на смартфон, чем покупка небольшого внешнего микрофона. Однако, если у вас микрофон-пушка, вы можете подключить его к смартфону с помощью простого кабеля или адаптера. Эти типы остронаправленных микрофонов действительно влияют на качество записи. Посмотрите наш 2019обзор передач для некоторых идей по вариантам микрофона.
Какие типы аудиофайлов можно импортировать в Merlin Bird ID?Merlin принимает аудиофайлы большинства стандартных типов, включая mp3, m4a и wav, в зависимости от того, какие файлы поддерживает ваш телефон.
Ваш комментарий будет первым