声带是重要的发声器官,声带每开启一次,或者闭合一次的时间就是声带的基音周期,也就是音调周期,而基音周期的倒数就是基音频率,F0。
声音的主观音高通常取决于其基频,但也有例外。声音可能是频率性,或者是存在区域外的音高,反之,声音可以不是频率性的,但还没有激起的音高。但是,在较大范围内的间距和频率是在一对一的关系,“音调”通常是在基频的地方使用的程度,和F0估计方法通常被称为“音高检测算法”或PDA。现代化的音轨感知模型假设无论是从频率性或是在时域神经模式又或者从泛音的谐波图案通过在频域中解析得到音高,这个进程都是为了得到基频和它的倒数——基音周期。
假设F0能够可靠的被估计出来,它的应用范围非常广泛,而且是非常有用的。基音频率描述了语音信号的重要参数的特征。基音频率及其倒数基音周期率信息在诸多领域有着长足且丰富的运用,如:语音分析与语音合成,说话人身份辨析,语音编码与语音解码,以及低码率语音压缩和解压、病人口腔及发音系统的病因审查、聋哑及残障人士的听觉帮助设置等。因为汉语在说话的时候具有四种声调,而声调的含义,就是基音的变化模式,它携带着非常重要的信息,可以起到非常大的作用,当他们被用来辨析语音信号时,有区别意义的功能,所以,基音频率的提取和估算对汉语语音信号处理而言,更是一个非常迫在眉睫的问题。语音F0变化在声调语言中对韵律的判断可以做出突出的贡献,他们帮助区分词汇类别。尝试使用F0在语音识别系统已经取得了初步的的成功,其中的部分原因是因为估计算法的可靠性有限。数个音乐应用程序需要F0估计,如自动得分转录或实时交互系统,但在这里方法的重复不可靠性是一个障碍。F0各种信号的有用成分加工方法中十分有效,例如,F0决定了频谱包络线的估算[2]。
绝大多数的基音频率提取的算法在无噪声环境中表现良好,但当他们进入有噪音的情况后,他们的性能就迅速的下降,准确而强大的算法的开发依然是一个具有挑战性的问题。除此之外,对于东亚地区的孤立语而言,语音的识别相比较来说更加的困难,尤其是汉语拥有四个声调,更加增加了基音频率提取的难度[3]
本文章介绍了比其它众所周知的方法错误率更低的F0的估计方法。这个名字YIN从东方“阴”和“阳”理念暗示自相关之间的相互关系减少它的涉及。通过平衡自相关函数之间的相关参数,达到平衡提取基音频率的目的
2 传统基音频率提取的算法
语音是人类说话所用的声音,由一连串的音节组成,研究这一连串音节的组合规则,有利于对于基音频率的检测技术不断深入,同时在了解原理的情况下方便的进行语音信号分析处理以及相关的语音合成,尤其是基音频率的提取[4]
对于语音信号而言,这是一个连续且非平稳的过程,想在这一过程中提取基音频率是比较困难的,所以,对于一段连续语音而言,通过分帧的方法,对其离散化,在极短的时间内,可以认为语音信号是平稳的。而在分帧时,分帧所包含的窗口长度,与语音信号固有的特征直接相关[5]。
语音信号的基音频率,在语音合成与分析,处理基音频率等方面十分有效,而汉语的主要处理方法中,却很少见通过基音频率进行处理的例子。基音频率作为基音周期的倒数,不仅可以通过基频来识别汉语语言的信息,更能判断汉语语音的韵律[6]。
基于这个问题,基音频率的提取方法在很早以前就被研究。在下文中,我们通过研究所在的域,将基音频率提取分为时域算法,频域算法和倒频域算法以及线性预测四种。 基于YIN方法的汉语语音信号基频检测(2):http://www.youerw.com/tongxin/lunwen_24073.html