2.1.2 PCM编码
WAV文件规定采样的音频文件使用PCM编码。PCM编码并没有将音频文件进行压缩处理,而是简单的将信号转化为二进制的形式,所以PCM编码是一种不失真的编码方式,而
WAV文件则是一种无损的音频文件,这也是WAV文件被广泛使用的原因之一。
然而PCM编码有个很大的缺点,就是因为它为了保持信号不失真,付出了占用存储空间大的代价,由此我们可以得知,WAV文件适合做短时间的音频数据存储。
2.1.3 WAV音频文件总结
所以我们在进行WAV文件的导入处理时,可以直接将文件指针定位在不同的位置上,获取WAV文件的种种信息。最后根据WAV文件数据段的大小,建立一个存放音频数据的数组,将二进制化的音频数据处理成十进制后放入数组,以便之后的绘图与处理。
2.2 短时能量分析
语音检测,主要是基于语音和噪声的不同特点做判断。虽然无声段和噪声的声音特性非常相似,但有声段的声音特性与噪声有明显的区别。因此,清音/浊音检测方法被经常使用。
在语音通信过程中,人们难免会遇到各种干扰,这会干扰接收者,使接收者收到最后不是原来的语音信号的非纯语音信号,而是与噪声混合的语音信号。 语音检测是基于某些不同的语音和噪音的特点。因此,对语音和噪声的特点的研究和分析,是语音检测算法的前提。
因此,清音和浊音信号可以分为两大类。从语音产生机制判断,两者之间有着明显的差异。浊音信号显示出了明显的周期性的时域和能量都集中在较低频域特性显著。然而,清音信号虽然是一个有声声音,但它和高斯白噪声完全不同,并没有一个明确的时域和频域特性。
语音信号是一个随时间变化的,非平稳的随机过程,其特征随着时间而改变,但这种变化是很慢的。由于人的发声系统的生理结构,其变化率是有限的,人类的声带和通道形状在短时间内是相对稳定的,并且甚至可以认为其特征没有变化。相邻的帧可能有一些重叠。每一帧可以被看作是截取具有规则特征的语音信号,这个连续语音信号序列可以被看作语音信号短时的周期性重复。
因此,每个语音信号处理短时等效于具有固定特性的连续语音信号处理。
2.2.1 加窗分帧
对语音信号进行短时能量分析需要进行加窗分帧处理。
加窗即以语音信号的一至七个基音周期为一个窗口,一般窗口长度N选在一百到两百之间。不仅窗口在长度大小方面有要求,窗口形状的选择的不同也会有相应不同的分析结果。 语音信号元音段自动检测方法研究(3):http://www.youerw.com/jisuanji/lunwen_19845.html