和四声之外,还包含非单调变化的第三声。传统语音信号处理技术则很难能够准确地捕捉到。由此可见,准确检测出汉语共振峰的特性对汉语信号分析及识别具有重要意义。本课题拟利用经验模式分解(EMD)进行汉语共振峰检测,从解决传统共振峰检测工具在提取共振峰时会出现虚假峰值和共振峰合并的问题。
2 共振峰的概念
共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。与基因检测类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。这些问题包括:
(1)虚假峰值
在正常情况下,频谱包络中的极大值完全是又共振峰引起的。但在线性预测
分析方法出现之前的频谱包络估计器中,出现虚假峰值是相当普遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值。为了增加灵活性会给预测器增加几个额外的极点,有时可利用这些极点代表虚假峰值。
(2)共振峰合并
相邻共振峰的频率可能会靠的太近而难以分辨。这时会产生共振峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。
共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱
的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出共振峰。
2.1 提取共振峰的方法
DFT是频谱分析的有效手段,谱包络的峰值基本上对应于共振峰频率。DFT谱受基频谐波的影响,最大值只能出现在谐波频率上,因而共振峰测定误差较大。
带通滤波器组法:这种方法将语音输入到一组并联的带通滤波器中, 根据带通滤波器组的响应情况来确定共振峰频率。滤波器组中心频率的分布可以是线性的,也可以是仿照人耳感知特点的非线性分布。
2.1.1 倒谱法
倒谱法:声道响应的倒谱衰减很快,在[-25,25]之外的值相当小,因此可以构造一个相应的倒谱滤波器,将声道的倒谱分离,对分离出来的倒谱做相应的反变换,就可以得到声道函数的对数谱,对此做进一步处理即可求得所需的各个共振峰。语音信号不是加性信号,而是卷积信号。为了能用线性系统对其进行处理,可以先采用卷积同态系统处理。经过卷积同态系统后输出的伪时序序列称为原序列的“复倒频谱”。它的定义式可以表示为:
倒谱或称“倒频谱”的定义为:
(2.2)
它和复倒谱的主要区别是对序列对数幅度谱的傅立叶逆变换,它是复倒谱中的偶对称分量。它们都将卷积运算,变为伪时域中的加法运算,使得信号可以运用满足叠加性的线性系统进行处理。复倒谱涉及复对数运算,而倒谱只进行实数的对数运算,较复倒谱的运算量大大减少。
如果 和 分别是 和 的倒谱, ,那么 的倒谱 。 基于经验模式分解的汉语共振峰检测算法(2):http://www.youerw.com/tongxin/lunwen_2168.html