2012-07-13 1962 views
5

我想在公共数据集中测试我的音乐流派算法,以便与其他预先存在的算法进行比较。在MIREX的情况下,所有数据都不可用。 我发现GTZAN数据集在一个链接中可用(marsyas.info/download/data_sets) 但是,它现在不可用。GTZAN音乐流派数据集

您知道吗我怎么能得到这些数据?因为我使用MFCC以外的其他功能,所以我需要流派注释以及音乐。

在此先感谢。

回答

1

我也在寻找这样的基准。
我觉得这是在一个叫纸“从声音到‘意义上的’通过特征提取和机器学习 - 导出高级别描述符的表征音乐”:

里有音乐目前正在开展一些努力 信息检索社区编译 标签音乐,可以提供给所有感兴趣的研究人员 没有版权问题的大型知识库。值得注意的例子是Masa taka Goto的RWC音乐数据库(http://staff.aist.go.jp/m.goto/RWC-MDB), IMIRSEL(国际音乐信息检索系统评估 实验室)项目伊利诺伊大学厄巴纳 - 香槟分校 (http://www.music-ir.org/evaluation-另见[12])和FreeSound Initiative(http://freesound.iua.upf.edu)的新版本 , 。

但我从中找不到任何有用的东西。获得第一个提到的数据库的副本的过程描述为here,但它看起来很复杂!

6

编辑:现在看来,Marsyas页面托管在marsyasweb.appspot.com,您可以在data sets子页面找到指向GTZAN数据库的链接。

我还在为我的大学项目寻找GTZAN数据集,并发现http://marsyas.info已关闭,所以我使用了google web cache for marsyas.info/download/data_sets(查看更多信息)。幸运的是,GTZAN数据集托管在http://opihi.cs.uvic.ca,您可以download them

但使用的数据集 前注意许可(从缓存marsyas信息下载页面):

被用于众所周知纸流派分类这个数据集由G“音频信号的音乐流派分类” 。Tzanetakis和P.Cook在IEEE Transactions on Audio and Speech Processing 2002.

不幸的是,数据库是在我的研究中逐渐收集的,所以我没有标题(显然没有版权许可等)。这些文件是在2000 - 2001年从各种来源收集的,包括个人CD,收音机,麦克风录音,以表示各种录音条件。 Nevetheless我一直在根据要求将其提供给研究人员,主要用于比较等。如果您打算使用此数据集发布实验结果,请联系George Tzanetakis([email protected])。

数据集由1000条音轨组成,每条音轨长30秒。它包含10种流派,每种都由100首曲目表示。曲目都是.wav格式的22050Hz Mono 16位音频文件。

也许您会对其他数据库如Magnatagatune - http://tagatune.org/Magnatagatune.html感兴趣。