8.《基于DTW的语音识别在MATLAB中的实现方法浅析》:本文阐述了基于DTW的非特定人语音识别的基本原理与实现方法。该语音识别系统预先建立标准语音模板库与三名待测者的语音模板的方法,然后结合MATLAB中自带voicebox语音工具箱及相应语音处理函数的编写,成功的实现了数字1-10的孤立词的语音识别,识别成功率统计达到90%以上。
9.《声学模型的研究及在关键词识别系统中的应用》:本文首先介绍了在语音识别中广泛应用的隐马尔可夫模型的基本理论。同时为了将该模型引入到语音识别的实际应用,讨论了它的三个主要问题和主要算法。接着介绍了本文中普通话数字声学模型所使用的语料库和训练环境,分析了普通话数字的声学特点并研究了其训练方法。更详细分析了普通话数字的识别难点和声学模型缺陷。针对连续数字识别的难点从标注和模型自身两个方面提出相应的模型优化办法来对其改进。获得大量的实验数据后,对实验结果进行了总结和分析,肯定了模型训练优化方法的有效性。随后对汉语普通话的声学特点进行了详细的介绍,分析了音素,音节,声韵母等不同基本单位作为识别基元的优劣,并对关键词识别系统进行了比较分析。为了改善关键词系统的抗拒性能,训练出关键词反词模型,并获得了竞争词似然度测试结果,对两者进行了分析比较。
10.《语音信号处理》:全书共分9章,其中第1章绪论,介绍语音信号处理及其发展过程。第2章介绍语音产生与人类听觉的机理,传统的线性语音产生模型,以及近年来刚刚兴起的非线性语音产生模型。第3章从语音信号的时域特征入手,引入时频分析的思想,并进一步阐述时频分析中短时傅里叶变换和小波变换在语音信号特征分析中的应用,最后对广泛使用的倒谱特征以及同态解卷积进行介绍。第4章介绍语音信号的线性预测原理、解法、几种推演方法以及线谱对分析法。第5章介绍语音编码的相关知识,包括语音的波形编码、线性预测编码、极低速率语音编码技术,以及相关编码器的性能指标和评测方法。第6章介绍语音识别的基本内容,从基于矢量量化的识别技术到动态时间归正的识别技术,再到隐马尔可夫模型的识别技术,从孤立词识别到连接词识别及连续语音识别技术,再到关键词检出技术,最后还介绍近年来兴起的一些语音识别应用技术,包括语言学模型的自适应、htk应用以及lattice结构和混淆网络等。第7章介绍说话人识别的基本原理,主要包括说话人的特征选取、说话人识别的主要方法,以及近年来备受关注的gmm-ubm模型、开集说话人识别的规整技术等。第8章介绍近年来发展迅速的顽健语音识别技术,从影响语音识别性能的环境变化因素分析开始,介绍噪声环境下顽健语音识别技术,以及变异语音识别的技术。第9章介绍语音合成的基本原理、线性预测合成、共振峰合成以及汉语按规则合成,以及最近兴起的基于hmm合成技术等内容。
11.《HMM和神经网络用于语音识别的算法研究》: 本文首先介绍了几种常用的特征提取方法如线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC),这两种特征在静音环境下有很好的识别效果,但在噪音环境下,性能就会严重下降。为此论文重点介绍了一种抗噪特征:ZCPA特征,并分析了其抗噪原理。接下来论文讨论了隐马尔可夫模型的原理及用于语音识别的系统实现过程。经典的Baum-Welch训练算法在软件实现中存在下溢问题,文献中没有给出正确的针对下溢问题的重估公式。因此,论文使用定标算法,重新推导了Baum-Welch训练算法的重估公式。实验结果表明修改后的公式收敛速度很快,并且得到了较好的识别效果,充分证明了重新推导后公式的正确性,而使用原公式在训练时无法收敛。