Поиск внутри музыки | «Российский музыкант 2.0»

Поиск внутри музыки // П. Лэмер

12 ноября 2008 / Переводы

Музыкальный стиль, казалось бы, — материя трудноуловимая. Но в этой статье рассказывается о настоящем стилевом анализе, успешно проводимом… автоматикой. Статья — это обзор научного проекта, посвященного (в целом) изучению новых способов организации больших коллекций музыки и поиска по ним. Решение такой задачи и потребовало «разобраться» с музыкальными стилями (любыми!). Результат — вы сможете даже услышать и увидеть автоматические поступенные плавные переходы между стилями, буквально от Моцарта до «Нирваны».

Обзор

В последнее десятилетие резко увеличился размер цифровых музыкальных коллекций. Вместимость mp3-плееров возросла от десятков до 40 и более тысяч песен. Музыкальные онлайн-магазины предлагают миллионы композиций для продажи по доллару за штуку. Сервисы цифровой музыки по подписке предлагают неограниченный доступ к миллионам треков за несколько долларов в месяц.

Но даже несмотря на такое увеличение размеров музыкальных коллекций, инструменты, предлагаемые любителям музыки для ее поиска, не изменились. Они до сих ищут по жанру или по исполнителю, альбому, названию «песни», как это происходило и при поиске в обычном магазине. И с увеличением размера коллекции людям стало значительно сложнее найти музыку при использовании настолько примитивных инструментов поиска, особенно новую музыку, которая им могла бы понравиться.

Цель проекта Поиск внутри музыки (Search Inside the Music) — открыть новые методы анализа, классификации, индексации и организации больших коллекций музыки, чтобы позволить нам создавать более эффективные инструменты для изучения, обнаружения и рекомендации музыки. Этот проект расширяет музыкальный поиск до поиска «внутри музыки», то есть поиска не только по названиям, ключевым словам и исполнителям, но по музыкальному содержимому и контексту. Мы хотим помочь людям находить и упорядочивать их музыку, опираясь на все музыкальные качества, в том числе такие, как акустическая схожесть, настроение, слова, музыкальные темы, мелодии, темп, ритм и инструментовка. В настоящее время мы сосредоточились на двух направлениях: использование социальных данных для рекомендаций и организации музыки на основе слушательских привычек людей со схожими музыкальными вкусами и автоматическая разметка (автометки) новой или непопулярной музыки с помощью обработки звуковых сигналов и машинно-обучаемых моделей.

Разметка аудио по словам

Одна из основных целей Поиска внутри музыки — создание машинно-обучаемой модели, которая, «прослушав» аудио, могла бы генерировать полезные описания (они же «автометки»). Получившиеся слова могут быть использованы для оценки сходства между композициями и авторами. Более того, эти слова можно смешивать с другими описаниями, например, взятыми с таких социальных сайтов, как Last.fm.

В качестве примера возьмем старую версию песни Дуга Экка, написанную 15 лет назад, Keep the Change. (Мы используем его музыку только потому, что ее слушают только тогда, когда мы ссылаемся на нее в научных целях. Кроме того, его музыка не использовалась для построения наших моделей. Таким образом, это справедливый тест.) Приведем наиболее релевантные¹ результаты по жанру и эмоциям ( слово «эмоция» в данном случае толкуется свободно):

Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.

Слова категории «жанр»	Слова категории «эмоции»
bluegrass	красиво
ирландский	грустно
slowcore	нежно
инди поп	меланхолично
кантри-альтернатива	модно
американское	расслабляюще

Хороши ли эти слова в качестве меток? Сложно сказать. Конечно, мы еще можем найти плохие слова среди менее релевантных («вокалистка», например), однако в целом мы рады, что подобные слова ушли из наших моделей.

В документе «Автоматическая генерация социальных тегов для музыкальных рекомендаций» приведены технические подробности о принципах работы этих моделей.

Приведем его краткое содержание: каждому слову в нашем словаре присваивается своя собственная машинно-обучаемая модель (конкретно AdaBoost или FilterBoost), которая размечает свойства 5-секундных аудиофрагментов лейблами вроде «американское». За время обучения мы выбираем положительные примеры для данного слова из нашей базы аудиоданных. Положительные примеры определяются на основании анализа данных. Проще говоря, мы генерируем учебные наборы для машинного обучения, используя слова из социальных сервисов. В частности, слово «американское» взято из песен, больше всего отмеченных этой меткой пользователями Last.fm. Мы выбираем аудио для композиций из нашей лабораторной базы данных и тренируем классификатор на нахождение соответствующих особенностей в аудио, необходимых для того, чтобы «услышать», «американская» песня это или нет. Тренировка осуществляется на 5-секундных аудиофрагментах. Для общей метки на всю композицию берется средний прогноз по всем 5-секундным фрагментам для конкретного слова. По результатам тренировки множества индивидуальных словесных моделей мы в состоянии построить сеть релевантных слов для песни, альбома или исполнителя. Подводя итог: набор нелинейных классификаторов получает на вход аудио и генерирует на выходе соответствующие слова.

На рисунке приводятся свойства, используемые для обучения модели. В очень широком смысле это особенности, чувствительные к ритму и метру (автокорреляция; вверху), звуковысотности (спектр; в центре) и музыкальному тембру/инструментовке (коэффициенты косинусного преобразования Фурье; внизу).

Сходство автометок

Мы используем термин «автометки» для обозначения слов, сгенерированных нашими машинно-обучаемыми моделями. Создав ряд автометок для музыкальной коллекции, можно использовать их в качестве средств измерения сходства композиций, альбомов и исполнителей. Поскольку автометки — обычные слова, то можно легко смешивать автометки с данными из других источников, таких, как Last.fm, Wikipedia и т.д.

Предлагаем несколько примеров того, как звучит получающееся пространство похожих исполнителей. Мы применяли технику уменьшения Isomap для создания диаграммы наиболее близких авторов. Затем мы смогли найти кратчайший путь, соединяющий двух авторов. Из их композиций сэмплировались 5-секундные фрагменты и объединялись в один mp3-файл. Эти демо немного грубоваты, потому что брались случайно отобранные 5 секунд из случайной композиции каждого автора; есть много значительно более эффективных способов сделать это путем рационального отбора песен, а также рационального выбора 5 секунд. Щелкните по графикам, чтобы увидеть крупные версии.

Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.

От Бетховена до The Prodigy

Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.

От Вольфганга Моцарта до Nirvana

Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.

От Джона Колтрейна до System of a Down

Визуализация

Еще одна цель «Поиска внутри музыки» — найти новые способы помочь людям открыть для себя новую музыку. В частности, с помощью интерактивной 3D визуализации музыкально схожего пространства мы дали возможность слушателю свободно ориентироваться в своей музыкальной коллекции, получать рекомендации в отношении новой музыки, создавать интересные и логически осмысленные плейлисты и взаимодействовать с обложками альбомов из музыкальной коллекции. В результате возможен более интересный и приятный в использовании пользовательский интерфейс, чем доступные нам сегодня.

Подробнее об этом — в документе «Using 3D Visualizations to Explore and Discover Music».

Люди и места

Поиск внутри музыки — это проект Sun Labs, Burlington, MA.

Сегодняшняя команда:

Paul Lamere, ведущий инженер-специалист в Sun Labs, Burlington, MA и руководитель исследований проекта Поиск внутри музыки.
Douglas Eck, приглашенный профессор в Sun Labs в 2007 году; после этого вернулся в Монреальский университет. Он остался в проекте, занимаясь разработкой машинно-обучаемых алгоритмов.
Francois Maillet, стажировался в Sun Labs летом 2008 года, сейчас учится на магистра в Монреальском университете под руководством Дугласа Эка.

Исследовательская группа также тесно сотрудничает с Advanced Search Technology group в Sun Labs, в которую входят:

Steve Green, ведущий инженер-специалист в Sun Labs, Burlington, MA и руководитель исследований в Advanced Search Technology group.
Jeff Alexander, Sun Labs, Burlington, MA и член Advanced Search Technology group.

Выпускники проекта:

Sten Anderson, независимый контрактный сотрудник, сделал вклад в трехмерную визуализацию музыкального пространства.
Thierry Bertin-Mahieux, стажировался в Sun Labs летом 2007 года и сейчас заканчивает обучение на магистра в Монреальском университете под руководством Дугласа Эка.
Rebecca Fiebrink, стажировалась в Sun Labs в 2006 году, сейчас готовится на доктора философии в Принстоне под руководством Перри Кука.
Kris West, стажировался в Sun Labs в 2005 году.

Информация по состоянию на 11 ноября 2008 года; статья от 17 июля 2008 года
Перевод с английского — Владимир Громадин

Релева́нтность (англ. relevant) — применительно к результатам работы поисковой системы — степень соответствия запроса и найденного, т. е. уместность результата. (Википедия) [обратно]

3 комментария на “Поиск внутри музыки”

Михаил Пучков 18 ноября 2008 в 15:26

Осталось только научить компьютер не брать готовую музыку, а генерировать свою собственную на основе заданных прототипов.

[Ответить на этот комментарий]

Ответ (Владимир Громадин):
ноября 18, 2008, 21:53

и что, нас всех разгонять? :)) придется устраивать движение луддитов применительно к композиции

[Ответить на этот комментарий]

Ответ (Михаил Пучков):
ноября 18, 2008, 22:00

Ну, ежели мы не сможем конкурировать с программой, то да, разгонять нафиг

[Ответить на этот комментарий]

Откликнуться

Рубрики

Календарь

Март 2010
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Дек
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

День за днем

Консерватория в шоколаде

Комментариев нет

Предварительные образцы, попутно охраняя их от преждевременного поедания, сфотографировал: Владимир Громадин

О фотографии…

Все фотографии проекта День за днем

Musica theorica

К истории «путаницы» ладов. Средневековое переименование греческих видов октавы

mt12

Семь широко известных октавных (семиступенных) диатонических ладов имеют многовековую историю, начало которой связано еще с античной музыкально-теоретической традицией. В древности так же, как и в наши дни, каждое название (дорийский, фригийский и т. д.) подразумевало октавный звукоряд с определенной последовательностью тонов и полутонов. Но, сравнив семь античных «ладов» с семью современными, так называемыми натуральными ладами, мы обнаружим, что при полном совпадении звукорядов их названия как будто перепутаны (ср. примеры 1 и 4). Возникновение этой «путаницы» связывают с переименованием античных октавных звукорядов, которое произошло в IX веке, на страницах анонимного теоретического трактата «Alia musica»¹. С этого времени начала распространяться та система названий видов октавы, которой европейское музыкознание пользуется уже на протяжении более чем одиннадцати веков.

Далее…

См.приложение (перевод фрагмента трактата по тематике настоящей статьи). [обратно]

Российский музыкант 2.0

Поиск внутри музыки // П. Лэмер

Обзор

Разметка аудио по словам

Сходство автометок

Визуализация

Люди и места

3 комментария на “Поиск внутри музыки”

Откликнуться

Рубрики

Календарь

Последние комментарии

День за днем

Консерватория в шоколаде

Musica theorica

К истории «путаницы» ладов. Средневековое переименование греческих видов октавы