图2 H.Schlosberg的三文情感模型
20世纪60年代末,普拉切克(Plutchik,1970)根据自己对情绪的研究,将情绪分为强度、相似性和两极性三个文度,并用一个倒锥体具体阐述了三个文度之间的关系。其情绪的三文模式是在二文情绪分类的基础上,又增加了一个文度即强度所得来的。如,比狂怒这种情绪强度稍弱的分别是生气、心闷等,比憎恨强度稍弱的分别是厌恶、厌烦等,比恐惧强度稍弱的是惧怕、忧虑等,比惊奇强度稍弱的是诧异、涣散等[3]。
虽然类别很多,但为了研究的方便,大部分研究者往往会选择使用基本情绪,并把其视为孤立情感而非连续情感。在本文中,主要研究四种基本情绪,即高兴、愤怒、惊奇、悲伤。
1.2 语音情感数据库的建立
1.2.1 情感语句的选择
由于情感语句的分析对实验结果即情感语音的识别率至关重要,本文在对情感分析的实验中,对实验语句进行了慎重的选择。主要考虑了以下几个方面:
(1)所选择的语句不能带有明显的情感倾向性。
(2)必须便于加入不同的情感。
(3)句子的长短必须合适。一般要求句子录入所需时间长度不超过5秒。
基于以上所述原则,又参考了中国科学院自动化所的casia汉语情感语料库,本文选取了适合的情感语音数据库,其有情感语句50条,见附表1[4]。
1.2.2 情感语音信号的采集
本文主要研究愤怒、悲伤、高兴、惊讶四种情感。根据所选的情感语句,由四个实验者分别在上述四种情感和平静情绪状态下朗读每个句子,得到情感语音800句。为了检验所录得的情感语句的有效性,另外找了三名同学,进行情感语音听取实验。实验中,随机播放录制的情感语句的某一句,让同学们辨认是哪一种情感。对于识别率低的给予排除,最后得到780条有效的情感语句,作为情感语音数据库。情感语音听取实验的实验结果如下表2所示。
表2 情感语音听取实验结果
情感类别 愤怒 平静 悲伤 高兴 惊讶 错误率(%)
愤怒 141 6 0 4 5 9.8
平静 0 152 1 3 0 2.4
悲伤 0 1 154 0 1 1.6
高兴 6 1 1 146 2 6.3
惊讶 3 2 8 1 142 9.1
2. 情感语音的预处理与特征参数提取
2.1 概述
语音情感智能识别系统结构图如下图3所示,整个系统分为三个部分,即情感语音信号的预处理、情感语音特征提取和模式识别。
图3 语音情感智能识别系统结构图
这里需要说明的是,进行情感语音信号预处理,首先进行语音信号的加窗分帧、预加重滤波,然后利用短时能量与短时过零率相结合的方法进行端点检测。预加重滤波主要是为了滤除低频干扰,其次,还有消除直流漂移,抑制随机噪声的目的,具体实现方法是将语音信号通过一个1-0.9375z-1的一阶高通滤波器[5]。端点检测在语音的编码、语音识别、语音增强、说话人识别中起着重要的作用。再次,进行情感特征的提取。本文主要提取了振幅、时长、基频和共振峰相关特征,并与MFCC(Mel频率倒谱参数)相结合,从而有效地提取了情感语音的特征变化参数,提高了识别准确率。最后是模式识别。通常的模式识别方法主要有矢量量化方法、高斯混合模型(GMM)、隐马尔可夫模型(HMM)、人工神经网络法等。本文主要介绍了HMM和人工神经网络法。HMM在捕捉动态情感特征时有着明显优势。人工神经网络法也越来越受到研究者的广泛重视。与传统的模式识别方式相比,人工神经网络的语音识别方法不是将输入模式与标准模式进行比较,从而给出结果,它的识别过程更接近人的感知过程。并且,在处理数据的过程中,人工神经网络法具有很高的并行性,特别适合解决语音识别过程中的难题。
- 上一篇:STC89C52单片机室内电器设备智能控制系统设计+源码+电路图+仿真图
- 下一篇:AT89C52单片机智能压力传感器系统设计+PCB线路板图+源程序
-
-
-
-
-
-
-
上市公司股权结构对经营绩效的影响研究
现代简约美式风格在室内家装中的运用
巴金《激流三部曲》高觉新的悲剧命运
江苏省某高中学生体质现状的调查研究
浅析中国古代宗法制度
g-C3N4光催化剂的制备和光催化性能研究
NFC协议物理层的软件实现+文献综述
高警觉工作人群的元情绪...
中国传统元素在游戏角色...
C++最短路径算法研究和程序设计