最早的音乐识别技术是在语音识别处理中开始应用的单基频估计技术,由于随着我们对语音信号中单基频估计技术的不断成熟,同时考虑到了单音音乐信号的频率信号相对清晰简单,这使得大量的单音基频估计的算法被成功应用到单音乐音的研究当中。这些算法当中包括了Anssi Klapuri改进后提出的多通道模型[21],M.Y.WU之后提出的多通道分高低频的理论[20],以及1951年时Licklider提出的自相关算法[14]和Schafer于1970年提出的倒谱算法等等[17]。这些较为成熟的算法已经可以很好处理和解决在单音乐音频率估计方面出现的问题,本文也会着重于单音基频的识别估计。
3 多音基音频率识别技术
尽管人们在单音基音频率的研究方面有了长足的进步,但是随着科学研究的发展,仅仅对单音乐音的单基频估计的研究已经无法满足音乐信息识别领域的发展和需求。从上世纪70年代起,越来越多的学者开始将注意力从乐音信号的单基频估计转移到多基频估计上来。一般而言,多音信号被我们视为是由一个混合源发出的,因此多音基频估计的目的就是为了估计出这个混合信号中每一个声源信号的基音频率。开始多音基频估计的提出只是为了转录乐音。1975年,Moorer在他发表的博士论文中提出了仅仅针对两个声源的多基频估计算法。在这个基础上通过Chafe,Maher等人的研究和进一步的发展,得到了更加的完善。虽然这种早期的多基频估计系统实现了从单音基频估计到多音基频估计的跨越,却仍然受限于基音频率构成个数的限制,只能估计由两个基音频率构成的乐音,同时也不能考虑到谐和乐器与半谐和乐器的区别,识别的音高也被限定在一个较低的范围。进入20世纪末,人们意识到这种只能包含两个单音的乐音的多音基频估计技术已经不能满足快速发展的音乐识别领域的需求[24]。
近年来,由Klapuri提出的迭代普减算法拥有较高的的准确率和相对完善的结构[5]。此外,联合估计算法在多音基频估计的准确率方面也拥有不错的效果,2008年 Y eh提出了一种改进后不需要进行频谱累积减法的联合估计算法,并在两年后提出了进一步完善后的算法[16]。同时,诸如遗传算法,Specmurt算法,数据库匹配算法等计算机科学上的创新的出现,也对多音基频估计产生了很大的推动作用。[12]
纵览四十多年来多音基频估计技术的发展和演变,研究者们已经取得了较为可观的成果,已经开始逐渐在各个领域应用这项技术。然而,虽然如今的多音基频估计算法可以分别在较高的估计准确度和较低复杂度与较快计算速度上有优势,但仍然难以取得平衡。 而随着一些应用的产品化,同时对准确率和计算效率上的要求将会越来越高,因此多音基频估计仍然处于一个初级的发展阶段,拥有极大的提升空间和探索前景,国内外的研究人员也在对这项如今处于热点的科学技术在进行不懈的努力和追求。本文对于多音基频的识别只会停留在一个相对简单的程度上 音乐识别技术的国内外发展研究现状(2):http://www.youerw.com/yanjiu/lunwen_19105.html