国内外旋律检索的背景和研究现状情况_毕业论文

毕业论文移动版

毕业论文 > 研究现状 >

国内外旋律检索的背景和研究现状情况

对于音频检索国内外研究者和研究机构进行了多方面和全方位的研究。最早对基于旋律的音频检索技术进行研究的是Ghias。他于1995年发表了一篇这方面的文章,不过这篇文章只用了三个符号来表示曲调音高的变化分别是:D代表降低,R代表音高不变,U代表升高。这种旋律表示方法采用最大相同符号序列的匹配方法来比较两段音乐的相似度。这种方法对旋律的描述十分有限,且受当时计算机计算能力的限制,数据库中只有183首歌曲。5372
     而后McNab等人实现了第一个可以再互联网上进行哼唱检索的系统。他们采用了Golden-Rabiner方法来提取基频。然后根据能量和基频来分割音符,最后以音符作为最小匹配单元来进行检索。他们的检索系统MELDEX中有9400首歌曲。
    一种基于“动态阈值调整”的方法被Sonoda提出并实现了一个检索系统。该系统同时考虑了音高和音长的信息,采用了从粗到精的匹配方法,而且用了大量的内存来索引音符,所以检索的速度较快。
Kosugi等提出了采用音高转移和音高分布来提高系统的检索性能。在他们的SoundCompass系统中有10086首歌曲。不过唯一的缺陷就是用户必须跟着他们的节拍器进行哼唱这对该系统的推广带来了限制。
    而在国内对这方面研究起步最早的要数台湾清华大学的张智星等。他们开发了名叫“卡拉迷”的多模态点歌系统,目前有大约13000首歌。他们采用了基频曲线进行旋律匹配从而避开了音符切分容易出错这个问题。但是这种方法的检索速度较慢。
香港中文大学王玮[32]等人发表的文章是最早讨论面向音频数据库的哼唱检索技术的文献之一。他们采用WAV格式的歌曲数据作为研究对象,通过对WAV格式的歌曲信号提取基于帧结构的MFCC系数和短时过零率构成特征矢量,并基于改进的动态时间规整索引算法进行匹配。在匹配时首先标注原始歌曲中每句歌词的开始时间,这种预先处理的工作大大降低了检索工作量,提高了检索速度。其实验系统收集了84首流行歌曲作为歌曲库,原始文件都是MP3格式的文件。
此外中科院声学所,自动化所,上海交大也对这方面进行了研究并取得了重要成果。 (责任编辑:qin)