毕业论文

打赏
当前位置: 毕业论文 > 自动化 >

MATLAB语音情感智能识别的建模与仿真(3)

时间:2016-12-21 11:12来源:毕业论文
图2 H.Schlosberg的三文情感模型 20世纪60年代末,普拉切克(Plutchik,1970)根据自己对情绪的研究,将情绪分为强度、相似性和两极性三个文度,并用一个倒


 
图2  H.Schlosberg的三文情感模型
20世纪60年代末,普拉切克(Plutchik,1970)根据自己对情绪的研究,将情绪分为强度、相似性和两极性三个文度,并用一个倒锥体具体阐述了三个文度之间的关系。其情绪的三文模式是在二文情绪分类的基础上,又增加了一个文度即强度所得来的。如,比狂怒这种情绪强度稍弱的分别是生气、心闷等,比憎恨强度稍弱的分别是厌恶、厌烦等,比恐惧强度稍弱的是惧怕、忧虑等,比惊奇强度稍弱的是诧异、涣散等[3]。
虽然类别很多,但为了研究的方便,大部分研究者往往会选择使用基本情绪,并把其视为孤立情感而非连续情感。在本文中,主要研究四种基本情绪,即高兴、愤怒、惊奇、悲伤。
1.2 语音情感数据库的建立
1.2.1 情感语句的选择
由于情感语句的分析对实验结果即情感语音的识别率至关重要,本文在对情感分析的实验中,对实验语句进行了慎重的选择。主要考虑了以下几个方面:
(1)所选择的语句不能带有明显的情感倾向性。
(2)必须便于加入不同的情感。
(3)句子的长短必须合适。一般要求句子录入所需时间长度不超过5秒。
基于以上所述原则,又参考了中国科学院自动化所的casia汉语情感语料库,本文选取了适合的情感语音数据库,其有情感语句50条,见附表1[4]。  
1.2.2 情感语音信号的采集
本文主要研究愤怒、悲伤、高兴、惊讶四种情感。根据所选的情感语句,由四个实验者分别在上述四种情感和平静情绪状态下朗读每个句子,得到情感语音800句。为了检验所录得的情感语句的有效性,另外找了三名同学,进行情感语音听取实验。实验中,随机播放录制的情感语句的某一句,让同学们辨认是哪一种情感。对于识别率低的给予排除,最后得到780条有效的情感语句,作为情感语音数据库。情感语音听取实验的实验结果如下表2所示。
表2 情感语音听取实验结果
情感类别    愤怒    平静    悲伤    高兴    惊讶    错误率(%)
愤怒    141    6    0    4    5    9.8
平静    0    152    1    3    0    2.4
悲伤    0    1    154    0    1    1.6
高兴    6    1    1    146    2    6.3
惊讶    3    2    8    1    142    9.1

2. 情感语音的预处理与特征参数提取
2.1 概述
语音情感智能识别系统结构图如下图3所示,整个系统分为三个部分,即情感语音信号的预处理、情感语音特征提取和模式识别。
图3 语音情感智能识别系统结构图
这里需要说明的是,进行情感语音信号预处理,首先进行语音信号的加窗分帧、预加重滤波,然后利用短时能量与短时过零率相结合的方法进行端点检测。预加重滤波主要是为了滤除低频干扰,其次,还有消除直流漂移,抑制随机噪声的目的,具体实现方法是将语音信号通过一个1-0.9375z-1的一阶高通滤波器[5]。端点检测在语音的编码、语音识别、语音增强、说话人识别中起着重要的作用。再次,进行情感特征的提取。本文主要提取了振幅、时长、基频和共振峰相关特征,并与MFCC(Mel频率倒谱参数)相结合,从而有效地提取了情感语音的特征变化参数,提高了识别准确率。最后是模式识别。通常的模式识别方法主要有矢量量化方法、高斯混合模型(GMM)、隐马尔可夫模型(HMM)、人工神经网络法等。本文主要介绍了HMM和人工神经网络法。HMM在捕捉动态情感特征时有着明显优势。人工神经网络法也越来越受到研究者的广泛重视。与传统的模式识别方式相比,人工神经网络的语音识别方法不是将输入模式与标准模式进行比较,从而给出结果,它的识别过程更接近人的感知过程。并且,在处理数据的过程中,人工神经网络法具有很高的并行性,特别适合解决语音识别过程中的难题。 MATLAB语音情感智能识别的建模与仿真(3):http://www.youerw.com/zidonghua/lunwen_1386.html
------分隔线----------------------------
推荐内容