3.1 语音信号的时域分析
对信号分析最直接的方法是以时间为自变量进行分析,语音信号典型的时域特征包括短时能量、短时平均过零率、短时自相关系数和短时平均幅度差等。在这一节中,主要对短时能量、短时平均过零率等特征及它们的应用加以介绍。
3.1.1语音信号的时域表示
在进行语音信号数字处理时,最先接触、最直观的是它的时域波形。通常是将语音信号转换成电信号,再用A/D转换器将其转换成离散的数字信号,然后存入计算机内存中。
3.1.2 短时能量分析
语音信号的能量随时间变化比较明显,一般清音部分的能量比浊音的能量小得多。对语音信号的短时能量进行分析,可得出反映这些幅度变化的合适描述方法。对于信号,{x(n)}短时能量的定义如下:
(式3-1)
表示在信号的第n 个点开始加窗函数时的短时能量。可以看出,短时能量可看作语音信号的平方经过一个线性滤波器[2]的输出,该线性滤波器的单位冲激响应为,如下图所示:
图3-1短时能量的方块图表示
冲激响应的选择,或者说窗函数的选择决定了短时能量表示方法的特点。为了反映窗函数的选择对短时能量的影响,假设式(2-1)中非常长,且为恒定幅度,那么随时间的变化将变为很小,这样的窗函数等效为很窄的低通滤波器。我们需要对语音信号进行低通滤波,但太窄的低通滤波就不能反映语音信号幅度变化。因此出现了窗长选取上的矛盾,这种矛盾将在语音信号的短时表示方法的研究中反复出现。即希望有一个短时窗(冲激响应),以响应快速的幅度变化。如果用表示经过加窗处理后的信号,窗函数的长度为N,则短时能量可表示为
(式3-2)
短时能量主要有以下几个方面的应用:首先利用短时能量可区分清音和浊音,因为浊音的能量要比清音的能量要大得多;其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等。
3.1.3 短时平均过零率
短时间平均过零率是语音信号时域分析中最简单的一种特征。顾名思义,它是指每帧内信号通过零值的次数。对于连续的语音信号,可以考察其时域波形通过时间轴的情况。对于离散信号,短时平均过零率实质上就是信号采样点符号变化的次数。如果是正弦信号,它的平均过零率就是信号频率除以两倍的采样频率,而采样频率是固定的,因此,过零率可以在一定程度上反映其频谱特性,可以通过短是过零率获得频谱特性的一中粗略估计。短时平均过零率的公式为:
其中
短时平均过零率可以用于语音信号分析。在发浊音的时候声带振动,因而声门激励是频率为基频的声压波,它在经过声道时产生共振。尽管声道有若干个共振峰,但由于声门的影响,其能量分布主要集中在3KHz 频率范围内;反之,在清音段声带不振动。因此,浊音段时的能量集中在低频段,而清音的能量集中的高频段。由于短时平均过零率可以在一定程度上反映频率的高低,因此在浊音段一般有较低的过零率,而在清音段具有较高的过零率,这样就可以用短时平均过零率来初步判断清音和浊音。
3.2 语音信号的频域分析
时域波形虽然简单直观,但对于语音这样复杂的信号而言,一些特性要在频域中才能体现出来;并且无论是从发音器官的共振角度,还是从听觉器官的频率响应角度来看, 频谱都是表征语音特性的基本参数。其振峰就是一个典型的频域参数,它可以决定信号频谱的总体轮廓或包络。对于声道而言,它的共振峰频率不止一个,一般元音可以有3~5个共振峰。 汉语双基频检测研究+文献综述(4):http://www.youerw.com/tongxin/lunwen_8896.html