因此语音信号参数模块可以由冲激模块、辐照模块和声音通道模块三个子模块串联起来。函数表达式如公式(2-3)所示:
(2-3)
2。4 语音信号的短时分析技术
语音信号是一个时变信号且它具有非稳定性。促成语音信号的步骤就是发出声音身体部位的挪动步骤,根据发出声音身体部位的挪动特性,可以知道语音信被视为短时平稳的,且在时间段10~30ms以内,所以可以把其频谱特性和物理特征参量视为无变化。因此可以把信号分为一个个短时帧,对这些帧的处理就能够认为是对这些有固定特性的连续语音的处理。这些短时帧被称为分析帧,可为连续和交叠两种。
2。4。1 预滤波、采样、A/D变换
预滤波有两个主要功能:
(1)抑制住频域分量中输入信号的频率,不让其超出,预防出现混淆扰乱;
(2)减少50Hz电能能源扰乱。因此,需要的谐波器是带通滤波器,且 和 分别是上、下截至的频率。一般的语音编码器, =60~100Hz, =3400Hz,采样率为 =8kHz。在过滤谐波和取样以后,语音信号通过A/D转换器可以转换成二进制参数码。
2。4。2 短时频谱
可以用下面公式计算信号 的离散傅立叶(DTFT) 称为s(n)的短时频谱,如公式(2-4)所示:
(2-4)
称作s(n)的短时功率谱。如果s(n)的DTFT是 ,且w(n)的DTFT是 ,那么 是 和 的周期卷积。一般采用 的离开松散傅立叶转换(DFT) 来取代 ,而且能够用傅立叶转换(FFT)方法高效而快速的实现由 到 的转换。目的是增加 的分辨率,所以DFT和别的相干的FFT点数 比 的间隔 N要大一些。比如,一般情况下的采样率是8kHz,帧长20ms的时候N=160,通常情况下 为256,512及1024。于是当扩大的部分添一些的0采样值,就可以将 的点数从N扩大到 。
2。4。3 短时间能源与短时间均匀程度
语音信号的单位帧里所含的能源为短时间能源,采用 标识,如公式(2-5)所示:
(2-5)
一帧样点值的加权平方和即为短时能量。为了判断该帧的语音是浊音,清音以及是否存在,这就需要它的量值。
这样就出现一个特别重要的问题,即短时间能源的信号电平值很灵敏,这要求算出信号样值的平方和,并且在定点时,特别容易溢出。为了解决这个问题,就需要定义短时平均幅度 ,以此来判断语音幅度变化的情况。来*自-优=尔,论:文+网www.youerw.com
可是 一般来说 的最大和最小值的对比要求比短时间能源小很多,其值相当于短时间能源数值的平方值,因此用 不如短时能量,其分辨度相对较低。
2。4。4 加窗处理
通常采用一个长度有限的窗函数w(n)来乘语音信号s(n),从而形成加窗语音 =s(n)·w(n)。理想的窗函数的频率响应要求主瓣无限狭窄且没有旁瓣(无频谱泄漏),但在实际过程中无法实现。根据不同的应用,通常采用矩形窗、海明窗和汉宁窗等窗函数来逼近理想的频率响应。
矩形窗主瓣最小,但旁瓣最高;海明窗具有最宽的主瓣和最低的旁瓣高度。从应用的角度来说,矩形窗有最高的频域分辨率,但泄漏较高,海明窗可以有效克服泄漏现象,具有平滑的低通特性。