重影响激励信号的的谐波结构,所以,从语音信号中直接提取出仅和声带振动
有关的激励信号的信息并不容易。③语音信号本身是准周期性的(即音调是有
变化的),而且其波形的峰值点或过零点受共振峰的结构和噪声等的影响。④基
音周期变化范围大,从老年男性的50Hz到儿童和女性的450Hz,接近三个倍频
程,给基音检测带来了一定的困难。由于这些困难,所以直到现在尚未找到一
个完善的算法可以对于各类人群(包括男、女、儿童及不同语种)、各类应用领
域和各种环境条件情况下都能获得满意的检测结果。
尽管语音信号的基音检测有许多困难,但由于它在语音信号处理中的重要
作用,基音检测一直是语音信号处理中的一个重要课题,为此提出了各种各样
的基音检测算法。早在70年代,L.R.Rabiner等人就进行了自相关函数法检测
语音信号的基音周期的研究工作,它是一种时域上的基音检测算法,算法的精
确性高,计算量不大,是目前各种应用中最为常用的基音检测算法。1967年,
A.M.Noll在提出了倒谱法(Cepstrum)检测语音信号的基音周期,这是一个频域上的检测算法,这种方法检测基音周期精确度很高,抗噪性能好,主要的缺陷是计算量太大,要用到傅立叶变换和对数运算,不利于算法的实现。1972年,J.D.Markel提出简单逆滤波追踪法(SIFT)检测语音信号的基音周期,这是一种时域和频域相结合的算法,是一种精确度和计算量较为折中的算法,它利用逆滤波去除声道共振峰的影响,使基音信息更为突出。1974年,M.J.Ross等人提出平均幅度差函数法检测语音信号的基音周期,这是一种时域上的算法,也是最简单的基音检测算法,它只需在时域上进行简单的加减和少量的除法运算,运算量很小,但是很容易产生半基音和倍基音,目前还有很多人在不断的提出改进的AMDF算法。到1976年,L.R.Rabiner等人在文献系统总结了之前的各种语音信号的基音检测算法,并进行了全面的比较。这些算法都是假定语音信号在一帧内是平稳的且一帧内包含两个以上的基音周期,所以它们不能很好反映语音信号的时变特性,而且只能求出一帧内的平均周期。
国内在语音信号的基频检测方面的起步较晚,参与研究的人员较少,所以大多数算法都是紧跟着国外的研究成果或提出一些改进的算法,没有原创性的算
法。
汉语的基音检测难度较大,虽然它的发音规则简单而且少,但汉字的发音包括音节和声调,而且存在大量的同音字;汉语句法复杂而多变,没有固定模式;没有明确的词的概念,不像英语那样可以简单地进行分解开,还有大量的专有名词和成语及地方方言等。所以面向汉语的基音检测研究有待大力开发。
2 语音信号处理基础
2.1 语音信号的采样与量化
语音信号是时间和幅度都连续变化的一文模拟信号,要想在计算机了对它进行处理,就要先进行采样和量化,将它变成时间和幅度都离散的数字信号。
所谓采样就是把模拟信号在时间域上进行等间隔取样,其中两样本之间的间隔
图2-1 语音信号数字化框图
称为采样周期,它的倒数称为采样频率。根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以根据采样后的信号重构原始信号。实际的信号常有一些底能量的频谱部分超过采样频率的一半,如浊音的频谱超过4KHz的分量比其峰值要低40dB以上;对于清音,即使超过8KHz,频率部分也没有明显的下降,因此语音信号所占的频率范围可达10KHz左右。在实际的语音信号处理中,采样频率一般为8KHz~10KHz。 汉语双基频检测研究+文献综述(2):http://www.youerw.com/tongxin/lunwen_8896.html