1. GTZAN:

非常古老(ˉ▽ ̄~),并且非常经典的音乐数据集。但是数据集中同样存在一些问题,标签上的错误[1]。

数据描述:

提供1000条音频数据,每条30s。一共包括10个音乐风格,每个风格包括100条数据。
大小:1.2G

Paper:

[1] The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use
[2] Learning to Recognize Musical Genre from Audio

Code:

[1] https://github.com/Hguimaraes/gtzan.keras
[2] https://github.com/AmbarZaidi/Audio-Genre-Classification

2. 免费音乐档案(Free Music Archive-FMA):

数据描述:

根据文件大小,该项目提供四个不同的音频数据:

文件 时长 数量 类别数 是否均衡 大小
fma_small.zip 30s 8,000 8 7.2G
fma_medium.zip 30s 25,000 16 22G
fma_large.zip 30s 106,574 161 93G
fma_full 30s 106,574 161 879G

每个文件夹包括四个文件:

· tracks.csv:106,574首曲目的每首曲目元数据,如ID,标题,艺术家,流派,标签和播放次数。
· genres.csv:163种风格的ID与他们的名字和父母(用于推断流派层次和顶级流派)。
· features.csv:用librosa提取的特征 。
· echonest.csv:由Echonest (现在的 Spotify)为13,129首音轨的子集提供的音频功能

Paper & Code:

Paper Code
《Learning to Recognize Musical Genre from Audio》 Github
《Transfer Learning of Artist Group Factors to Musical Genre Classification》 Gitlab
《Ensemble of CNN-based Models using various Short-Term Input》 Gitlab
《Detecting Music Genre Using Extreme Gradient Boosting》 Gitlab
《ConvNet on STFT spectrograms》 Gitlab
《Xception on mel-scaled spectrograms》 Gitlab
《Audio Dual Path Networks on mel-scaled spectrograms》 Gitlab

baseline:

https://nbviewer.jupyter.org/github/mdeff/fma/blob/outputs/baselines.ipynb

3. 百万歌曲数据集

数据描述:

数据集包括一百万首歌曲的特征分析和元数据。该数据集不包含音频,只包含得出的特征。样本声音的获取方式Github
以’Never Gonna Give You Up’为例说明数据的特征:详细描述

Paper:

[1] A Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

4. 城市声音分类

数据描述:

大小:训练集 3.41 GB(压缩),测试集 2.16GB(压缩)

记录数: 10个类别,8732条声音标注,的城市声音片段(<= 4s)

Paper:

[1] Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification
[2] FEATURE LEARNING WITH DEEP SCATTERING FOR URBAN SOUND ANALYSIS
[3] UNSUPERVISED FEATURE LEARNING FOR URBAN SOUND CLASSIFICATION

Code:

Urban sound classification using Deep Learning-Github
Urban Sound Classification — Part 1: sound wave, digital audio signal
Sound Classification using Spectrogram Images

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐