为了提高整体识别率,本文采用HMM与人工神经网络相结合的方法。在HMM与ANN融合时,本文采用的是人工神经网络多层感知器(MLP)。首先对该分类器进行训练,对每一个样本计算它和所有HMM模型的似然概率,从而完成对神经网络的训练过程。在识别阶段,先用每个HMM的均值矢量序列与待识别的语音信号进行线性匹配,过MLP识别。只采用HMM与二者相结合得到的识别率的对比表3如下所示。
表3 HMM与HMM/ANN识别结果对比
高兴 愤怒 惊奇 悲伤 平静
HMM 84.6% 68.1% 69.4% 88.6% 68.5%
HMM/ANN 92.3% 69.1% 79.6% 94.8% 79.2%
从表3可以看出,在高兴的情感状态下,用HMM法的识别率为84.6%,将HMM与ANN相结合时的识别率为92.3%,在悲伤的情感状态下,用二者结合的方法识别率提高了6.2%,在惊奇和平静的情感状态下,识别率分别提高了10.2%和11.3%。这说明,用HMM与ANN相结合的方法是可行的,并且较只用HMM法所得到的识别率有了显著提高,具有更好的性能。
4. 总结与展望
本文对语音情感智能识别的现状和研究方法等做了深入的分析研究,在语音情感的分类、特征选择、模式识别方法等方面提出了自己的观点和看法。在进行语音情感的特征参数提取时,本文主要选取了时长、振幅、基频和共振峰等相关参数,并与经MFCC模型所提取的特征参数相结合,有效提取了语音中的情感特征参数,使识别率有了明显地提高。在进行模式识别时,采用了HMM与ANN相结合的方法,对以往研究进行了改进,并取得了较为满意的结果。
虽然本文中有创新的地方并提高了识别率,但仍存在不足之处。首先,由于受到文化、性别、教育背景等的影响,每个人的说话特点都不尽相同,这将给语音情感识别的研究造成很大困难。本文仅仅对非个性化语音情感进行了研究,即只研究了人类在不同情感状态下语音特征的共性特征,并未对个性化特征加以分析。另外,由表3可知,愤怒、惊奇这两种情感的识别率分别为69.1%和79.6%,对这两种语音情感的识别率有待进一步地提高。
关于语音情感智能识别的研究正由起步阶段逐渐发展,研究方法也越来越多,但很多仍处于理论阶段,未被推广应用。由于情感语音是随时间变化的非平稳信号,在信号变化过程中也会有很多语音特征发生变化,所以,如果有一种方法能将这些特征结合起来研究,就能比较全面地描述情感语音信号。这种多类特征组合是特征获取的一个新兴研究动向。另外,用特征降文方法能实现语音情感的高效识别,但目前仍处于起步阶段,需要在这个方面进行更多的研究与尝试。 MATLAB语音情感智能识别的建模与仿真(8):http://www.youerw.com/zidonghua/lunwen_1386.html