VC++语音的频率域特征分析(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

VC++语音的频率域特征分析(2)

同时随着计算机越来越向便携化方向发展,以及计算环境的日益复杂化,人们越来越要求摆脱键盘的束缚而代之以语言输入这样便于使用的、自然的、人性化的输入方式。

语音信号处理是一门涉及面很广的交叉学科,也是来解决以上想法和目标的,它研究的内容包括:语音特征分析和建模、语音数字压缩编码、语音识别、语音合成、语音增强、现代语音通信等。

1.1 语音信号的特点

1.1.1  语音信号的短时平稳性

从整体上来看,表征语音信号本质特征的参数都是随时间变化的,这一点可以从语音信号的时域波形上看出,故语音信号是一个非平稳随机过程,不能用处理平稳随机信号的技术对其进行分析处理。 由于语音信号是由人的口腔内一系列肌肉运动构成的发声模型产生的,而口腔肌肉的这种运动相对于语音频率来说是非常缓慢的,故在一个短时间范围内(一般认为10~30ms),其特性基本保持不变,可以将其看作“准稳态随机过程”,这就是语音信号的“短时平稳性”。 一般语音信号的分析处理都建立在短时平稳的基础上。

1.1.2  清音、浊音和爆破音

人类的发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张弛震荡,形成准周期性的空气脉冲,这些空气脉冲激励声道边就产生浊音。如果声道中某处面积很小,气流高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个门限时(临界速度)便产生摩擦音,即清音。如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。 

在汉语普通话中,我们遇到最多的就是浊音和清音。简言之,发浊音时声带发生振动,因此浊音有周期性(准确的说是准周期性);而发清音时声带不振动,因此清音没有周期性。发音时声带不振动的辅音,成为清辅音,如:\f\,\s\.声带振动的称为浊辅音。如:\v\,\z\。

1.1.3  元音和辅音

元音是发音时气流不受阻碍,发音器官均衡地紧张,气流较弱的音。在汉语普通话中,元音是(a、o、e、i、u、ü),它们是构成每个音节的重要组成部分。所有的元音都是浊音。

辅音是在发音时气流要经过不同的阻碍,且发音器官中阻碍部分较紧张,气流较强的音。汉语中声母都是辅音。

1.1.4  基音频率

物体的振动会产生不同频率的声音,它所发出的频率最低音是基音,此时对应的频率就是基音频率。当发浊音时,气流通过声门使声带发生振动,产生准周期激励脉冲串。这个脉冲串的周期就称为“基音周期”(pitch),其倒数称为“基音频率”。

基音频率与个人的声带特性有很大关系,比如声带的长短,厚薄,韧性和发音习惯等,因此在很大程度上基音频率反映了说话人的个体特征。一般来说,成年男性话音的基音频率大致为50~200Hz,女性的基音频率在200~450Hz之间。

1.1.5  共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语谱图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。 (责任编辑:qin)