1.2 语音识别研究面临的困难
语音识别及相关研究所面临的主要困难是理论上一直没有明显突破,遇到发展瓶颈。虽然许多新的改进方法不断涌现,但其普遍适用性都不容乐观。此外,语音识别系统要真正实现商品化,还存在诸多具体问题,例如识别速度、拒识问题以及关键词检测等。语音识别实现的过程中的困难主要表现在:
(1)使用环境对语音识别准确率依赖性很强,甚至有些系统在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降。
(2)系统的适应性能较差,主要是许多因素影响语音识别系统的性能,比如不同的说话人、环境噪音、传输信道等等。
(3)虽然语言学、生理学、心理学方面孤立领域中的研究成果已有不少,但如何把这些交叉学科的知识很自然的应用于语音识别,还需很多努力。
(4)由于我们对人类的听觉机理的理解和学习机制以及大脑神经系统的控制机理等方面的认识还不够清晰。故而,现在也还很难把这方面的已经获得的成果用于语音识别。
1.3 识别算法
语音识别的关键技术之一就是识别算法,不同的算法有不同的优缺点,故而适应不同的识别环境。只有通过对比各种识别算法,才能找到最适合自己需要的算法。本设计通过对比分析四种识别算法,最终决定采用了适于识别孤立词语音的DTW算法。每一种算法都有自已的依据与适用情况,下面简要介绍其他三种识别算法。
1.3.1 矢量量化法(vector quantization,VQ)
矢量量化的量化对象是一个矢量,在语音信号处理过程中,将一帧语音的采样点组成的序列或者是一帧语音的某个或某些特征序列的组合组成的序列。它是一种很有代表性的模式归类方法。出于每个说话者的说话特征都各不相同,VQ是采用特定说话人的语音信号特征参数的空间分布建立识别模式,它将若干个采样信号分成一组,构成一个矢量,然后再对它进行量化。VQ是将K文无限空间划分为R个区域边界,其中每一个区域都称作一个胞腔,然后将输入信号的矢量与所有胞腔的边界进行对比,比较差异最小的胞腔形成中心矢量值,毫无疑问,这种量化必然会带来信息的损失,但却大大减少了计算量和数据存储量。
量化中突出表现的在于采取何种规则划分R个区域的边界,这个规则的得出需要统计大量的输入信号形成的矢量才能得到确定。通常称这个确定规则的过程称作“训练”或“建立码本”,习惯采用LBG算法,即按照一定的失真测度,对进行训练的数据做一些分类,这样就把训练数据在不同分类形成的多文空间中划分成一些独立的以形心(码字)为中心的胞腔。这个过程需要一个由大量的矢量构成的样本集,经过统计实验后确定出各个胞腔的中心矢量[6]。
1.3.2 隐马尔科夫模型(hidden markov models, HMM)技术
隐马尔科夫模型的基本思想是在马尔科夫链基础上发展起来的,事实上,人们观察到的事件与参考模板状态不是一一对应的,而是通过概率分布联系起来的,这样的系统模型就称为HMM。它由两个随机过程组成,分别是马尔科夫链(也是基本随机过程)和随机过程描述状态与观察值之间的统计对应关系。在此基础上站在观察者的角度,因为不能像马尔科夫链模型中的观察值和参考状态一一对应,所以不能直接看到状态,而是通过随机过程去感知状态的存在及特性。
1.3.3 人工神经网络(artificial neural networks, ANN)
由于人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等都使它极适宜于解决类似于语音识别这一类课题,它既适用于底层又适用于顶层。人工神经网络是在模拟人脑神经组织的基础上发展起来的全新的计算系统,它是由大量计算单元通过丰富联结构成的复杂的网络[7]。在一定程度上反映了人脑功能的若干基本特性,是一种更接近于人的认知过程的计算模型。 MATLAB语音识别系统的设计+DTW算法+流程图(3):http://www.youerw.com/tongxin/lunwen_809.html