在语音的发音过程中,声道通常都处于运动状态,这个运动状态的时变过程同振动过程相比要缓慢得多,因此一般假设语音信号是一种短时平稳信号,在一个很短的时间内(10ms-30ms)是相对平稳的,但在长时间的周期中语音信号的特性会发生变化,这种变化的不同决定了产生语音的不同。根据语音信号的这种短时平稳的特点,在每一时刻都可以用该附近的短语音信号分析得到一个频谱。
语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此,频谱分析是认识语音信号和处理语音信号的重要方法。在频域上研究语音信号,可以使某些在时域上无法体现的特性变得十分明显。
常用的频域分析方法有带通滤波器组法、傅立叶变换法、和线性预测法等,傅立叶分析是分析线性系统和平稳信号稳态特性的强有力手段,傅立叶变换可以将信号分解为各个不同频率分量的组合,从而把信号的时域特征和频域特征联系起来。 但是,傅立叶变换使用的是一种全局变换,无法标明信号的时频局域性质。为了能够分析和处理非平稳信号,人们对傅立叶变换进行改进提出了倒谱法,倒谱法是将对数功率谱进行反傅立叶变化后得到的,它可以进一步将声道特性和激励特性有效地分开,因此可以更好的揭示语音信号的本质特征。
3.3自相关函数法
3.3.1 用短时平均能量进行清/浊音的判断
在3.1.2中已做了介绍
3.3.2 自相关函数基音检测的原理
对于离散的数字语音信号序列x ( n) ,自相关函数定义如下:
(式3-3)
式3-3中, k 为信号的延迟点数。对于随机性信号序列或周期性信号序列,自相关函数定义为:
(式3-4)
自相关函数具有以下的性质:如果序列x ( n) 具有周期Np ,则其自相关函数也是同周期的周期函数。即:x ( n) = x ( n + N p );则:R( k) = R ( k + N p ) 。
清音信号没有周期性,它的自相关函数也没有周期, R( k) 会随着k 的增大迅速衰减。浊音信号具有准周期性,它的自相关函数R ( k) 具有与{ x ( m) } 相同的周期。自相关法基音检测正是利用R ( k) 的这一性质对语音信号进行基音检测的。
3.3.3 算法实现及相关程序
通过对自相关基音检测原理的分析, 考虑到检测准确度和检测速率2 方面的因素, 提出了算法实现方案, 并对算法进行了Matlab 编程实现。算法包含6个功能模块: 带通滤波、取样、分帧、短时能量分析、相关运算、基音检测。框图如图所示。
图3-2基因检测框图
带通滤波
该研究以采样频率为8kHz、精度为16 比特的wav 文件作为声源, 以网络录音机录制自己的一段语音。因为语音信号包含非常丰富的谐波分量, 基音频率最低可达80Hz , 最高可达500Hz , 但基音频率大多数分布在100~200Hz 之间 。因此,浊音信号可能含有三四十次谐波分量, 而其基波分量往往不是最强的分量。语音信号的第一共振峰通常在300~1000Hz 范围内, 即基音的2~8 次谐波成分比基波分量还要强。为了提高检测的准确度, 算法中引入了一个60~500Hz 带通滤波模块滤除语音帧的高次谐波分量。该算法中用音效编辑软件Cooledit提供的功能直接滤波, 方便快速, 它在保持语音信息的前提下, 可以大大减少谐波成分。
取样与分帧
取样模块从以采样频率为8kHz 的语音信号中截取Lengt h (样点数) 长个样点值, 一般取样点数为帧长的整数倍即可, 程序中取了18000 个样点数进行分析。分帧模块主要完成将取样模块中获得的语音样值点分为若干个语音帧, 算法中分析帧长30ms , 即每帧长为240 个样点。然后用短时平均能量判断出浊音帧, 再对浊音帧进行自相关计算, 最后进行基音周期检测。 汉语双基频检测研究+文献综述(5):http://www.youerw.com/tongxin/lunwen_8896.html