图2.1 矩形窗和Hamming窗的时域波形
矩形窗的定义:一个N点的矩形窗函数定义如下
hamming窗的定义:一个N点的hamming窗函数定义如下
这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图2.2):矩形窗的主瓣宽度小(4*pi/N),具有较高的频率分辨率,旁瓣峰值大(-13.3dB),会导致泄漏现象;汉明窗的主瓣宽8*pi/N,旁瓣峰值低(-42.7dB),可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表2.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。
图2.2 矩形窗和Hamming窗的频率响应
窗函数 主瓣宽度 旁瓣峰值
矩形窗 4*pi/N 13.3dB
hamming 8*pi/N 42.7dB
表2.1 矩形窗和hamming窗的主瓣宽度和旁瓣峰值
2.1 短时能量
由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为:
(2-3)
其中N为窗长。
特殊地,当采用矩形窗时,可简化为:
(2-4)
图2.3和图2.4给出了不同矩形窗和hamming窗长的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。hamming窗的效果比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(N 很大),等效于很窄的低通滤波器,不能反映幅度En的变化;窗过小( N 很小),短时能量随时间急剧变化,不能得到平滑的能量函数。在11.025kHz左右的采样频率下,N 选为100~200比较合适。
短时能量函数的应用:1)可用于区分清音段与浊音段。En值大对应于浊音段,En值小对应于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据En值的变化趋势)。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,En值很小,有语音信号时,能量显著增大。 voicebox基特定人的孤立词汇语音识别系统研究(3):http://www.youerw.com/tongxin/lunwen_4254.html