1.1 引言
语音是语言的声学表现是人类相互之间进行信息交流时所用的重要载体和基本手段,随着现代信息科学技术的飞速发展,尤其是计算机网络技术的日益普及和完善,使得语音信号处理技术发挥着越来越重要的作用[1]。目前,语音信号处理的一系列技术及其应用已经成为信息社会中不可或缺的重要组成部分,对促进信息社会的发展具有重要意义。
语音信号处理是语音学的数字信号处理相结合而形成的一门综合性学科,包括语音合成、语音识别、语音编码和说话人识别等四大分支。语音信号处理和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密[3]。语音信号处理技术的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些学科的发展。
在语音信号处理中,语音信号参数提取的准确性非常重要。只有获得准确的可表征语音信号本质特征的参数,才有可能利用这些参数进行高效的语音合成,语音识别以及语音压缩编码解码处理,其中基音周期的提取在语音信号众多参数提取中尤为重要,其提取的准确与否直接影响到合成语音是否真实再现原始语音信号的频谱[4]。
1.2 基音与基音周期提取的意义源]自{优尔·~论\文}网·www.youerw.com/
人在发音时,根据声带是否震动可以将语音信号分为清音与浊音两种。浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率,相应的周期就成为基音周期[2]。
通常,基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上反应了个人的特征。此外,基音频率还跟随着人的性别、年龄不同而有所不同。一般来说,男性说话者的基音频率较低,大部分在70~200Hz的范围内,而女性说话者和小孩的基音频率相对较高,在200~450Hz之间。
基音周期的估计称谓基音检测,基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线[1]。
基因周期作为语音信号处理中描述激励源的重要参数之一,在语音合成、语音压缩编码、语音识别和说话人确认等领域都有着广泛而重要的问题,尤其对汉语更是如此。汉语是一种有调语言,而基因周期的变化称为声调,声调对于汉语语音的理解极为重要。因为在汉语的相互交谈中,不但要凭借不同的元音、辅音来辨别这些字词的意义,还需要从不同的声调来区别它,也就是说声调具有辨义作用;另外,汉语中存在着多音字现象,同一个字的不同的语气或不同的词义下具有不同的声调。因此准确可靠地进行基音检测对汉语语音信号的处理显得尤为重要[3]。
1.3 影响基音周期提取准确性因素
由于声道的易变性及声道特征因人而异,而基音的范围又很宽,即使是同一个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。自进行语音信号分析研究以来,基音检测一直是一个重点研究的课题。尽管目前基音检测的方法有很多种,然而这些方法都有其局限性。迄今为止仍然没有一种检测方法能够适用不同的说话人、不同的要求和环境。究其原因,主要有以下几点表现:
1) 语音信号变化十分复杂,声门激励的波形并不是完全的周期脉冲串,在语音的头、尾部并不具有声带振动那样的周期性,对于有些清浊音的过度帧很难判定其应属于周期性或非周期性,从而也就无法估计出基音周期[6]。