2。1语音时域信号的特点
了解语音时域信号的特点是进行语音识别和特征分析的第一步,语音信号在清音段表现为能量低,过零率高,波形特点有点像随机的噪声。这部分信号常与语音的辅音端对应。在浊音段,则表现为过零率低能量高,波形周期性,处于这个语音段中的语音具有短时平稳性质。而在过渡段,一般来讲,学术上指的是从清音段向浊音段变化之间的部分,这段过程信号变化快,是语音信号处理中最复杂也是最困难的部分。文献综述
2。2短时能量
语音信号一般分为三个声段,它们分别为无声段,清音段和浊音段。浊音一般被认为是以基音周期为周期的,清音类似于随机噪声。由于语音信号的变化过程是一个非平稳态的,所以处理平稳信号的技术是不能对其处理分析的。语音信号本身有这样一个特点:在10~30ms的范围内,其特征一般被模拟为一个准稳态过程,这个特征也可以称为短时性。所以我们认为用短时能量和短时过零率来完成端点检测的分析工作是可行且有效的。 信号的短时能量定义为:设语音信号的时域参数为x(l)、对其加窗分帧处理第n帧语音信号得到的结果为x(n),那么下式:
(m)=w(m)x(n+m)0w(m)=
其中,,,2,1,0LTTn= 并且N为帧长,T为帧移长度。 设第n帧语音信号X(n)的短时能量谱用nE表示,则其计算公式如下,2。0:
公式2。0 短时能量公式
语音和噪声之间的差异可以反映在他们的能量,这段语音的能量大于噪声能量段,如果环境噪声及系统输入噪声比较小,只要输入信号的计算能够短时能量的语音段和噪声背景区分,此外,能量检测算法表示效果通常是理想的,因为能量值表示比无声的多,你可以确定之间的浊音和清音的时间的过渡,但对于清音,效果不是很好,也需要计算短时过零率。
2。3 短时过零率
可以这样简单度量理解短时过零率,即语音频率:
(1)指零交叉信号通过一零值。零交叉率是每秒钟的信号值由零的值的数目。(2)对于一个离散时间序列,零值是指样本的序列变化,零交叉率是每个样本变化的符号数。对于语音信号,它指的是水平轴(零级)在语音信号中的语音信号通过的次数。相邻的样本可以用来改变符号的数目来计算。 这个数据可以被用来区分元音(清音)和辅音(浊音),原因如上文中的度量所说,高频段具有高过零率,低频段则有低过零率。来;自]优Y尔E论L文W网www。youerw。com +QQ752018766-
2。4 WAV格式简介
WAV为微软公司(Microsoft)开发的一种声音文件格式,它符合RIFF(Resource Interchange File Format)文件规范,它被用来存储Windows平台中的所有音频资源,同时,Windows平台和它的应用程序也对其广泛支持,它支持MSADPCM,CCITT A LAW等各种算法,同时支持多种音频数字,取样频率和声道,标准的WAV文件在格式化之后和CD本质上并无差别,同为44。1K的取样频率,量化数字亦是16位,也正是因为这样,它们在声音文件的质量上和CD一致。 WINDOWS中播放器是WAV的默认播放器。
一般来说,我们可以使用三个参数来形容声音,一是量化位数,二是取样频率和而第三则是采样点振幅。一般可以把量化位数分为三种,分别为8位,16位,24位。声道有单声道和立体声之分,单声道振幅数据为n*1矩阵点,立体声为n*2矩阵点,取样频率一般有11025Hz(11kHz) ,22050Hz(22kHz)和44100Hz(44kHz) 三种,不过尽管音质出色,但在压缩后的文件体积过大!这是一个很大的缺点,尤其是其它格式的音频文件很小。我们一般这样计算它的大小:WAV文件容量(B) =时间 / 8 X(声道X位数X频率)) 每一分钟WAV格式的音频文件的大小为10MB。 语音信号的短时能量及短时过零率特征分析(3):http://www.youerw.com/jisuanji/lunwen_95839.html