MFCC提取的流程图如下图22所示:
图22 MFCC提取流程图
将语音信号的采样频率预设为8kHz,三角滤波器的个数为24。由上图22,提取MFCC首先要进行语音信号的预加重,然后还要分帧、加窗,这些步骤在本文的前面部分已有详细的介绍。需要指出的是,预设的帧长为256,即32ms,帧移为80,即10ms。将加窗后的信号进行离散傅里叶变换(DFT),得到频谱 。
(12)
其中, = , 为离散傅里叶变换的长度。对 的幅度进行美尔滤波器的频响加权,用 表示 时刻的语音帧,用 表示第 个美尔滤波器。则输出能量为:
(13)
其中, 和 分别指的是各个滤波器的最低和最高频率, 。
最后是用离散余弦变换解相关性将滤波器输出变换到倒谱域。用R表示MFCC参数的阶数,则
(14)
3. 语音情感识别模型
通常的模式识别方法主要有矢量量化方法、高斯混合模型(GMM)、隐马尔可夫模型(HMM)、人工神经网络法等等。由于实验时录入的情感语音都是动态而非静态,从这个方面看,HMM较好。人工神经网络法也越来越受到研究者的广泛重视。本文主要介绍HMM和人工神经网络法。
3.1 HMM模型
录入的情感语音信号是时变连续的,一般的语音信号处理是对于非时变的平稳信号,所以需要对时变信号建立短时线性模型。再将这些线性模型在时间上串联起来,就形成了一个马尔科夫链。较其它情感语音识别方法,HMM算法具有识别性能高、抗噪性能好的特点。该识别系统无需用户事先训练。
一个HMM过程包含一个用来描述状态转移的马尔科夫链的基本随机过程和一个由随机函数集构成的随机过程。在每一个时刻都只能处于某一个确定的状态中,而以后的状态要受到前面状态的影响。状态之间的跳转是依据状态转移概率矩阵A的。 ,其中, 且满足 。在随机函数集中,每一个元素都与某个状态相联系。描述状态与观察值之间是概率统计关系,当寻找到最佳状态序列后,以最大的后验概率求得识别结果[12]。由于模型的状态序列本身是隐藏的,只能看到输出的观测事件,所以被称作隐马尔科夫模型。
由于它具有双重随机特性,可以对短时特性平稳但总体特性不平稳的录入语音信号进行很好地描述。但它有其局限性,不能对某些语音信号特征进行描述。
3.2 人工神经网络法
人工神经网络ANN(Aritficial Neural Networks)是模拟生物的神经系统进行信息处理的一种方法,该方法不同于传统的语音识别方式,它是由很多简单的处理单元并行连接而构成的一种复杂的信息处理系统。特别是与HMM相比,它具有较强的分辨能力和自组织学习能力,还具有较好的辩解分辨能力。
人工神经网络语音识别过程如下图23所示[13]:
图23 人工神经网络的情感语音识别过程
由于传统方法和人工神经网络法都有各自的优缺点,传统方法与神经网络法相结合的方法正被越来越多的研究者所采用 。 MATLAB语音情感智能识别的建模与仿真(7):http://www.youerw.com/zidonghua/lunwen_1386.html