1.2 国内外研究现状
1.3 本文的行文结构
本文首先阐述乐理学中一些相关的理论知识,然后根据音乐独有的特征进行特征提取,最后对于提取后的特征向量设计并实现匹配算法,对多种匹配算法进行比较,最后选择较优的一种实现音乐检索系统。
第一章为绪论,简要概述了本文所涉及的内容,并阐述了国内外研究现状及背景、意义等。
第二章主要从乐理学的角度介绍一些音乐上的概念,并从人耳的角度对如何识别两段乐句是否相似进行分析。
第三章主要介绍音频理论及基于音频内容的特征提取方法 。
第四章主要介绍基于提取到的特征,进行匹配时的几种匹配算法的优劣性比较,分别阐明它们的适用之处。
第五章主要介绍本文主要研究进行匹配的两种常见音乐格式:Midi格式及wav格式,并介绍了基于这两种音乐格式的音乐检索系统的设计与实现。
第六章对本课题的研究进行总结,并对后续的工作进行展望。
2 音乐旋律的要素和人耳感知音乐的机理源:自/优尔-·论,文'网·www.youerw.com/
要用更“智能”的方法对音乐进行匹配和检索,首先就需要了解声音本身的要素;音乐旋律作为一类特殊的声音,其自身所带有的特征;以及人耳是如何感知声音,并进而识别出相似的音乐的。
2.1 声音的三要素:音调、响度、音色
2.1.1 音调
音调,即声音的高低,表示人分辨一个声音的高低程度。[8]音调主要取决于声音的频率,但也会受到声音的强度影响。对于纯音来说,音调和发声的频率呈正相关,即频率越高,音调越高;频率越低,音调也越低。另外,对于频率很低的音来说,音调随着声音的音强增大而变低;对于频率很高的音来说,音调随着声音的音强增大而变高。音调是旋律相似度识别的主要依据。
2.1.2 响度
响度是人的听觉判断一个声音的强弱的要素。需要注意的是它并不代表声音本身能量的强弱,而是由音强、音调、音色、音长等因素共同决定的,是人耳对这些因素进行综合分析处理后给出的结果。
在这些因素中,音强是较为主要的因素。音强是指一个声音音波的平均能流密度,它主要受到音速、频率、振幅的影响。例如,超声波频率非常高,所以它的音强很大;炸弹爆炸时发出的声音振幅很大,所以它的音强也很大。文献综述
但是我们注意到,尽管上述两个音的音强都很大,但人耳对其的判断则完全不同,人耳会认为前者“完全听不见”,而后者“震耳欲聋”。产生差别的原因是人耳能够分辨出的声音频率在20Hz~20000Hz之间,超声波的频率超过20000Hz,因此无法辨别。另外,人耳对1000Hz~5000Hz的音格外敏感,因此并不是说,其他条件不变,频率越高的声音响度越低。有实验说明,30Hz,80分贝的音,100Hz,52分贝的音,1000Hz,40分贝的音,4000Hz,37分贝的音,人耳对它们响度的感知几乎是一样的。
另外,音色,即声音的“刺耳 ”程度也会对响度造成些微的影响。一般来说,比较圆润的声音响度会比较小,而比较尖锐的声音响度则会比较大。