语音信号端点检测技术研究(3)

时间:2021-12-12 22:00 来源:毕业论文作者:毕业论文点击:次

2。2 语音的分类

语音是虽然是语音符号的载体，但它也具有一定的物理意义，语音的物理基础主要有音高、音强、音长、音色，这也是构成语音的四要素。按照语音产生方式的不同我们可以将语音分为三大类，如图2-3：

（1）清音：气流通过声门时，如果声带不振动的部分在收缩，迫使气流从一个收缩的狭窄通道通过产生一股湍流，这就是清音[1]。清音波形曲线较平稳，振幅较弱。

（2）浊音：气流通过声门时，如果声带弛豫振荡，产生爆炸的准周期气流，这股气流通道便可激励出浊音[1]。浊音的波形曲线振幅较强。

（3）爆破音：如果我们先关闭声道中的气流压力，然后我们突然重新产生压力并迅速地释放气流，发出塞音，这就是爆破音[1]。爆破音的波形曲线振幅小但曲线不如轻音平滑。

（a）清音（横坐标：采样序号;纵坐标：振幅）

（b）浊音（横坐标：采样序号;纵坐标：振幅）

（c）爆破音（横坐标：采样序号;纵坐标：振幅）

图2-3 三种语音的典型波形图

根据图2-3从振幅来看，浊音的振幅明显高于清音和爆破音，从震动频率上看，爆破音在急促部分最高，其他部分较低，清音整体较低。浊音高于清音且频率相对时间保持不变。

3 语音信号的时域特征分析

本章将介绍语音信号的短时能量和短时过零率参数，并且介绍这两个参数在双门限法中的具体运用，以及如何用双门限法完成端点检测。

语音时域分析的特点：

（1）简单易懂，时间复杂度低。

（2）时域波形曲线图能直观清楚地表达出语音特性。

3。1 语音信号的预处理

为了得到语音信号，我们首先要对语音数据进行预处理。预处理大致包括预加重和加窗分帧两个步骤。我们接下来介绍这两个步骤的意义。

预加重处理的目的是让语音信号波形图的频谱曲线变得平坦，在高频阶段也能和低频阶段一样使用一样的信噪比得出频谱曲线。分帧的目的是借助语音在时域上的短时平稳性，讲语音分为一帧一帧进行处理。同时由于语音在时域上信号不连续且有噪声干扰，为了不让帧数之间出现较大空白，我们需要采用帧移的手段来防止这种现象的产生，也是为了更好的模拟实际语音信号。同时为了避免边缘干燥语音对研究的干扰，我们也需要对语音加窗处理。来*自~优|尔^论:文+网www.youerw.com +QQ752018766*

3。1。1 语音信号的预加重处理

为了减少辐射干扰和使语音频谱曲线变得平缓，我们针对高频部分进行预加重。我们建立函数:

来进行预加重处理，我们设预加重系数为α，其中0。9<α<1。0。在时间n下我们设此时的语音采样值为x(n)：此时我们设α=0。98[1] 我们有预加重公式如下：

由于本文主要从时域方式入手分析，因此对频域方向的预加重处理不多介绍。

3。1。2 语音信号的加窗处理

虽然将语音信号进行分帧处理方便我们分段研究语音信号，但是为了防止帧与帧之间产生空白，我们在分段时采用了图3-1中的分段方法。这种方式叫做交叠分段方法，讲连续的2帧进行重叠，重叠的部分我们称之为帧移，长度一般为0~1/2个帧长，本文一般选用帧长的一半作为帧移[1,2]。

(责任编辑：qin)

语音信号端点检测技术研究(3)

时间:2021-12-12 22:00 来源:毕业论文 作者:毕业论文 点击:次

时间:2021-12-12 22:00 来源:毕业论文作者:毕业论文点击:次