20世纪60年代末,随着计算机计算能力的迅速提高,提供了能实现复杂算法的环境,同时数字信号理论和算法也有了蓬勃发展。其中线性预测编码(LPC)分析技术较好的解决了语音信号产生模型问题,它是通过定义基于LPC频谱参数的合适测量距离来将其扩展到语音识别技术中来的。
20世纪70年代末80年代初,提出了矢量量化(vector quantization)码本生成的方法,并将矢量量化技术成功的运用到语音编码方法,从此矢量化技术也很快的被推向其他领域。
20 世纪 80 年代,得益于MFCC 的参数提取技术和 HMM 模型的深入使用,语音识别技术得以进一步发展,语音识别问题在理论体系上逐步得到了比较完整和准确的描述,同时在实践上也出现了具有较高效率的解决算法。。
我国的语音识别研究起步晚,且由于各种条件的限制,语音识别研究未能得到正常发展。一直到80年代以后,随着计算机技术在我国的普及和良好的应用,数字信号处理技术也日趋成熟,这使得国内许多研究机构能够更进一步研究语音识别技术。1986年3月,随着我国863计划(即高科技发展计划)的启动,语音识别被专门列为研究课题,成为智能计算机系统的一个重要构成部分,从此我国的语音识别技术进入了一段快速发展时期,在非特定人语音识别方向:清华计算机科学与技术系于1987年制作的声控电话查号系统于实际应用中达到了理想效果。转向连续语音识别:1991年12月在四川大学计算机中心,一个受限制的指定人连续汉-英语语音翻译系统成功实现。再看孤立词与大词汇量识别:1992年由清华电子工程系和中国电子器件公司共同开发的THED-919指定人语音识别实时系统达到了较理想效果。
近年来,语音识别研究工作更趋于解决在真实环境环境应用时所面临的实际问题,这可从作为国际语音识别研究热点风向标的NIST评测情况反映出来:其评测的语音类型已从广播语音,通信通话语音,发展到目前的真实场景的会议语言。相对于广播语音,交谈式电话语音增加了相应的难度,具体表现在:发音多为自发的口语语音,存在着大量的不流利(如犹豫词、重复、更正等)现象,同时,语音内容和词汇的随机性明显增加。
1.3 论文的主要研究内容和组织结构
本文主要是对汉语元音共振峰特征值的分析,通过绘制波形图,对波形图进行傅里叶变化得到语音的频谱图,观察语谱图,统计同一元音背景下不同说话人前三个主要共振峰频率及宽度,对比几个主要的单元音和复合元音的分布规律。论文的主要结构安排如下:
第一章主要选择本次毕业设计课题研究的意义,介绍了语音信号处理的研究历程以及目前的研究现状,语音信号处理对生产生活的影响,最后介绍论文结构。
第二章阐述汉语元音分析的理论知识以及使用的基本方法。
第三章具体介绍wave文件的格式。简单如何进行语音信号的加窗分帧处理,介绍傅里叶变化的知识,以及如何调用fftw函数库进行短时傅里叶变化。
第四章根据所采用的方法绘制wav波形图,并且对波形图进行傅里叶变换,绘制出频谱图。
第五章观察绘制出的频谱图,得到几个单元音和复合元音的共振峰值及其宽度,对共振峰值进行分析,讨论汉语元音共振峰的特征值。 汉语元音共振峰特征值分析(3):http://www.youerw.com/jisuanji/lunwen_24032.html