7.4 特征组合 ·· 33
7.5 辨识分类 ·· 35
结论 ·· 40
致谢 ·· 42
参考文献 43
1 绪论 1.1 研究背景 音乐是独特的艺术,也是情感的表达方式。可以说,情感是音乐的本质特征[1]。 音乐对于我们的生活来说意义非凡,尤其是当我们进入了数字时代后音乐对我们的影响更甚。计算机音乐数据库的不断增长,使得我们迫切的需要寻找高效的组织管理和检索方法。不仅如此,音乐的识别分类还有潜在的市场和商业价值,由于不同的音乐片段传达不同的文化内涵,从而能够影响特定环境下人们的消费行为;对于一般人来说,为了能迅速准确的找到自己喜欢的某一类音乐(并不在乎演唱者或者歌词),也要求有高效快速准确的音乐分类方法。 因为计算机音乐有着非语义符号表示以及无结构化组织的特点,与单纯的字符相比更难以管理和检索,人们逐渐开始意识到通过建立元数据从而允许用户更方便获取音乐作品的重要性。尽管传统的诸如作者的名字或是作品的名称这类信息也很重要,但这些标识在很多音乐相关的查询上的适用度有限。如今,用户期待有更具语义的元数据将音乐分类归档,例如相似度、风格和情感等。这些需求都要求对于计算机音乐的分类不能仅仅通过人工的标签或是歌曲信息进行加工,而是要直接从计算机音乐的内容着手,寻找其中所能代表或区分不同种类音乐的潜在特征。论文网
值得思考的是,人们听感具有的主观特性,使得通过情感或者听觉感受的不同来分类计算机音乐成为一个挑战。听音乐时的心情、环境氛围、不同的个性、年龄、文化背景等都将影响对音乐的听觉感受。尽管普遍反对情感检测和识别的理由正是这个个人的主观特性,但当今的音乐心理学家认为,虽然除了文化,还有其它的一些人们对音乐情感反应的重要因素,不过在给定的特定文化背景之下,人们对音乐所表达的情感有着共识[2]。 因此,能够实现通过音乐的内容识别某种听觉上的共识从而自动分类,是现在最重要的研究课题之一。这之所以在功能上更加强大是因为它是基于音频数据的内容提取语义和结构的。 1.2 研究现状 对计算机音乐的辨识要涉及到很多其他学科,例如乐理、心理声学、数字离散信号处理、机器学习、模式识别等。近年的研究集中在音乐情感的辨识和分类,还有音乐的相似匹配等。Katayose 提出了一个针对流行音乐抽取感情的系统,首先将单声道声音数据改编成音乐代码,然后从这些音乐代码中提取音乐的基本要素如旋律、节奏、和声和形式[3]。
Liu 展示了一个情绪识别系统,它采用一个模糊分类器把约翰·施特劳斯的华尔兹摘录分成了 5 个聚类。在这个系统中,节奏、响度、音调变化、音密度和音色从 MIDI 文件中被提取出来,作为最本原的识别音乐情绪的特征[4]。这类工作研究所得了一些成果,但由于从原声数据提取有效特征比较困难,两者却都是关注 MIDI 或是符号型表示的音乐。但大部分现实世界中的音乐并不以符号型表示存在,并且也没有即在的能完善的转换到符号型表示的系统[5]。 Tzanetakis 在关于音乐流派(Genre)的分类工作中通过三组音乐特征,分别提取了音色、节奏、音高的特征集,对 10 种音乐流派进行分类实验,获得了不错的分类准度[6]。 目前有几种不同的分类器算法,比如 K 近邻(k-Nearest Neighbor),高斯混合模型(Gaussian Mixture Models),隐马尔可夫模型(Hidden Markov Model),支持向量机(Support Vector Machine),人工神经网络,线性差分分析(Linear Discriminant Analysis)等等,除此之外还有一些递归谓词等学习算法。不少研究者根据这些分类方法加以改进,得出一些新的分类方法或是改善,提高了不少的分类准度。 1.3 论文结构及内容概述 总的来说,对于计算机音乐的分类过程主要包含这三个方面的内容:一是对音乐的类别属性进行分析,换句话说是对分类依据的探讨,可以对音乐的情感、风格、相似度等进行建模;二是对音乐本身固有的音乐特征进行的提取和分析,即筛选出那些可以代表该音乐的一些本质特征,正如人体的 DNA 或指纹一样;三是在基于以上两个方面,设计合适、准确的识别和分类系统,建立对不同音乐的认知模型。