Распознавание звука в Python — документация по абракадабре
абракадабра в стиле Shazam
abracadabra — это распознаватель звука, написанный на Python. Это реализация документа Shazam: Алгоритм поиска звука промышленной мощности.
Прочтите документацию здесь или прочитайте объяснение того, как это работает.
Для чего вы можете его использовать?
абракадабра работает как Shazam. Вы регистрируете песни заранее, а позже вы можете использовать микрофон вашего компьютера, чтобы определить, какая песня играет. Его можно использовать (как часть другой системы) для:
Установка
Сначала клонируйте или скачайте этот репозиторий:
клонgit https://github.com/notexactlyawe/abracadabra.git
Затем установите зависимости, на которые опирается абракадабра. В Ubuntu вы можете установить их с помощью следующей строки:
sudo apt-get установить gcc portaudio19-dev python3-dev ffmpeg
Теперь вы можете использовать pip для установки проекта:
cd абракадабра установка пипа.
Использование в качестве скрипта
Установка проекта через pip установит song_recogniser
скрипт. Чтобы просмотреть все параметры, которые вы можете передать сценарию, выполните следующее:
song_recogniser --help
Ниже приведен пример использования song_recogniser
:
$ song_recogniser инициализировать Инициализированная БД $ song_recogniser зарегистрируйтесь ~/Music/CoolArtist/AwesomeAlbum $ song_recogniser Recognizer --listen # записывает 10-секундный клип для распознавания АЛСА... * запись * сделана запись («CoolArtist», «AwesomeAlbum», «SweetTrack»)
Использование в качестве библиотеки
Вы можете использовать абракадабру как часть собственного проекта, используя ее как библиотеку. Основные модули, которые вас заинтересуют, — это модули распознавания и настройки.
Большинство функций в библиотеке задокументированы. Если вы хотите использовать низкоуровневые компоненты в своем проекте, ознакомьтесь с документацией.
Проблемы и вклад
Если вы столкнулись с проблемой абракадабры или у вас есть предложения по улучшению проекта, пожалуйста, создайте задачу!
Запросы на вытягивание приветствуются, но сначала создайте вопрос, чтобы обсудить, что вы собираетесь делать.
Этот проект поддерживается Кэмероном Маклаудом.
Содержимое:
- абракадабра: Распознавание звука в Python
- Для чего это можно использовать?
- Установка
- Использование в качестве скрипта
- Использование в качестве библиотеки
- Вопросы и участие
- Начало работы
- Модули
- Участие в документации
- Указатели и таблицы
- Начало работы
- Установка
- Основное использование
- Модули
- Пакет абракадабры
- Субмодули
- Модуль abracadabra.fingerprint
- модуль abracadabra.recognise
- модуль абракадабра. запись
- модуль abracadabra.settings
- Модуль хранения абракадабры
- Содержимое модуля
- Пакет абракадабры
- Участие в документации
- Предварительные условия
- Создание документации
Индекс
Индекс модуля
Страница поиска
Что такое программа для распознавания музыки и как она работает? | Саймон Ли
4 минуты чтения·
8 января 2019 г.Вы когда-нибудь слышали песню и задавались вопросом, кто ее поет и что это? С появлением программного обеспечения для распознавания звука вы можете легко идентифицировать песни, мелодии, рекламу и даже фильмы одним нажатием кнопки.
Shazam Entertainment Limited была впервые основана Крисом Бартоном и Филипом Ингельбрехтом в 1999 году, а в 2002 году они запустили свое приложение для распознавания музыки Shazam на мобильных телефонах. Пользователям приходилось набирать номер и удерживать 30-секундную запись, чтобы получить результаты в виде текстового сообщения. Только в 2008 году Shazam стал приложением для смартфонов в магазине приложений iPhone 2.0. С годами у Shazam появляется все больше и больше пользователей, и он даже заключил партнерские отношения со Spotify и Apple, что привело к их покупке Apple в сентябре 2018 года за
— Какие проблемы с идентификацией песни для компьютера?
Люди распознают звук, не сравнивая каждый бит, который мы слышим, с запомненной версией, а вместо этого мы последовательно распознаем определенные аккорды, которые активируют нашу память. Компьютеры могут сравнивать данные только буквально и не могут так же легко неявно распознавать закономерности. Мы, как инженеры, должны были бы определить и количественно оценить эти шаблоны, чтобы компьютер мог им соответствовать. Вот где спектрограмм и звуковые отпечатки пальцев s пригодятся.
— Что такое спектрограммы и звуковые отпечатки пальцев?
Спектрограммы представляют собой наглядные графики изменения частоты звука во времени вдоль осей x и y с цветовым градиентом для представления амплитуды частоты. Затем можно взять две спектрограммы, одну из живой записи, а другую из базы данных песен, и сравнить их, чтобы увидеть, совпадают ли они. Если да, то вы можете идентифицировать песню только по ее спектрограмме. Преобразование спектрограммы в данные, понятные компьютеру, потребует слишком большого количества данных для реалистичного масштабирования вверх, поскольку информации слишком много, и сравнение их со всеми и всеми, хранящимися в базе данных, было бы неправдоподобным.
— Как Shazam справляется с распознаванием образов?
Shazam справляется с этим, беря спектрограмму и преобразовывая ее в звуковой отпечаток , похожий на точки на графике. Каждая точка будет тогда представлять самую высокую частоту магнитуды в определенный момент времени. Преобразование в звуковой отпечаток резко уменьшает объем данных, необходимых для представления определенного звука. Shazam еще больше упрощает звуковые отпечатки и сохраняет фрагменты звука, представленные частотными номерами, и сохраняет их в хеш-таблице. С помощью
— Какие существуют другие технологии/применения для распознавания звука?
Заявки на нарушение авторских прав могут подаваться автоматически с помощью распознавания аудио.Снятие отпечатков пальцев аудио может использоваться не только для идентификации песен в приложении Shazam. YouTube, например, может запускать алгоритм для своих видео и проверять наличие нарушений авторских прав, просто сопоставляя звуковые отпечатки пальцев с песнями, которые не принадлежат поставщику контента.
Ваш комментарий будет первым