3 基于EEMD算法的声韵分割 13
3.1 传统的声韵分割及其存在的问题 13
3.1.1 短时能量和短时平均过零率 13
3.1.2 短时能量微分和短时平均过零率的微分 16
3.2 基于EEMD的声韵分割算法 16
3.2.1算法的总体思想 16
3.2.2具体算法步骤 17
3.3 实验仿真与测试 18
4 复杂环境下汉语的声韵分割 24
结 论 31
致 谢 32
参 考 文 献 33
1 绪论
1.1汉语语音识别的背景和当前发展
国内有关汉语技术的产品分为两大类,分别是语音合成技术和语音识别技术。语音识别技术是一门近几十年才逐渐发展起来的新兴学科,这门学科的研究起始于国外50年代,并在70年代获得较大进展,识别语种主要是英语。我国从国外引入语音识别理论要追溯到上世纪70年代,虽然我国处理研究的起步要比别的国家晚,但我国跟踪运用了国外先进技术,并结合汉语加以应用。在运用的过程中,发现汉语音节种类较少,结果也很规律,便于实现以音节为基础的无限词汇识别,汉语的这种特点让我们在语音处理研究的进度上逐渐追上了国外先进水平。
语音识别技术的应用十分广泛。可涉及到多种技术领域。而语音识别技术涵盖十分广泛,与许多学科息息相关,也依赖于这些学科的发展。由于语音识别技术所要处理的语音信号都是瞬时的,并且有着难以预测的多变性。由于语音信号的随机性、不平稳性以及瞬时性,我们对语音识别的研究十分有限,将来有待突破性进展。
1.2 语音的特性与汉语语音的基本原理
1.2.1 语音的声学特性
音色、音调、音强和音长是语音的四大声学特性。其中音色也叫音质,它是区别声音的重要特性。声道的位置与形状决定了音质。古时候有句话叫做“先闻其声,后见其人”,就是因为每个人说话的音色不同,因此人们对不同人的不同的声音,都有一定的辨别能力。声音的高低决定着声波频率的高低,而声波频率的高低是由基音频率F0所决定的,基音频率越高,则音调越高。一般来说年龄的大小也会影响音调的高低,年岁越大,音调越低。音强是声音的强弱,声音强,自然隔很远就可以听得到,它是由声波的振幅所决定的。最后音长是声音的长短,是由发音时间所决定的,发音时间越长,音长也就越长。
1.2.2人体发声过程
在人日常说话所发出的声音其实是一种音波,它可以被人耳听到,振动频率在20Hz到20000Hz之间。人发音最小的单元为音节。其中音素则是音节中的最小单位,每个音节都有一个或多个音素构成。音素分为元音和辅音。音节主要由元音组成。元音是由谷底声道形状产生,发元音的声音时,声带是振动的,音强也较大。可以通过波形看出,当发元音时,振幅较大,而且呈现周期性。因此元音长度长,能量大,占音节中主导位置。而辅音的能量小,它们通常在音节的开头或结尾。辅音在音节的头或尾对元音起到了修饰的作用,带声的辅音也会有谐振的成分,但是与原因相比,它的能量就要小很多了。下面了解一下语音的产生过程,语音有两个重要的声学特性,分别是浊音的基音频率F0和共振峰Fn。基音频率又称基频,是由声带的尺寸、特性以及声带所受的张力而定,正常的范围在80Hz到500Hz左右。共振峰是在声道中被放大的频率,声道具有一组共振峰,共振峰的位置以及峰的频带宽度由声道的频谱特性所反应。