1.1 课题研究背景及意义
针对语音识别的研究早在1952年就开始,从一个仅能识别10个英文数字发音的系统到成型的计算机语音识别系统[1],而大型的研究则是70年代以后,不过针对的也只是小词量的识别。大规模的识别研究在80年代之后,且研究的技术从模板识别转变为统计模型研究[2]。90年代则进入应用方向发展。
美国于70年代就开始一个将近20年的语音识别计划,早期研究语音的理解系统。之后研究了噪声下的语音识别,数据库容量为一千个单词。最后还研究了自然语言处理,主要检索航空旅行信息[3]。 这个计划为DARPA(Defense Adwanced Research Projects Agency),后又有人提出了线性扩展用于特征抽取语音信号。而日本的研究则在80年代开始,内容没有太大的创新,通过非线性时间匹配研究识别模式,并在应用方面有进一步成果。
大词量的识别研究和针对非特定人的语音识别期间,CMU的J.K.Baker以及IBM的F.Jelinek等人提出了隐马尔科夫模型(HMM)技术和统计模型,这种模型效率更高、效果更好,在词汇的语法、词构等方面也有了更深入的研究。后又引入人工神经网络,用于区分模式[4]。其中IBM的ViaVoice和Dragon Dictate系统,这些系统的深入广泛应用在电话语音识别方面,以及连续语音识别的发展,训练简化的同时提高了识别率。
国内的研究起步较晚,前期研究没有突破,进展较慢,也是从10个元音的识别发展到设计语音识别[5]。改革开放以后,我国的计算机领域有了广泛的应用,且受到国外研究语音识别的热潮影响,使得我国在这方面的研究投入更多,语音识别技术得到进一步发展。通过国家的计划研究,更规范的展开了技术的发展和进步。国内研究所和高校都进入语音识别训练的研究,且这些系统的性能都各具特色,例如孤立字的研究以清华大学为代表,在92年成功设计了THED-919特定人语音识别与理解实时系统,另外还有声控电话查号系统在非特定人语音识别方面的研究[6];四川大学则实现了汉语语音翻译演示系统。
语音识别在汉语上的应用更具有多变性,进行声学模型训练时考虑声母韵母的发音,国内的一些论文研究采用了基于决策树的三音子建模技术。还有一些算法如基于动态时间规整DTW)算法、基于非参数模型的矢量量化(VQ)方法和支持向量机等语音识别方法[7]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的连续语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK。
1.2 论文研究内容
本文的设计环境是win7下eclipse6.1系统,运用Sphinx识别引擎,在模拟船舰指挥系统环境下对测试人员进行语音识别训练,本文的连续语音识别系统采用语音信号特征提取、声学模型和语音模型训练以及语音识别系统设计等部分组成[8]。
第一章为本课题的研究背景和意义,简单阐述了本文的研究内容.
第二章介绍了系统搭建,包括语音识别引擎Sphinx-4的简介和系统架构。
第三章是船舰指挥指令的语音识别关键问题,对指令的语音特征分析,给出可运用到系统的指令规范。
第四章主要内容是有关声学模型的训练,应用SphinxTrain工具,对音频文件经过一系列处理,得到声学模型参数文件。最后针对Sphinx-4具体说明了中文训练时需要注意的事项。
第五章通过语音模型的训练,采用N-Gram模型得到语音模型文件。
第优尔章给出安装环境和需要的文本资料,输入语音之后,进行声学训练,最后通过Sphinx-4引擎解码,获得指令的文本,将之与考核指令比较,分析得出评定。 基于中文语音识别技术的指挥训练系统的设计与实现(2):http://www.youerw.com/zidonghua/lunwen_10997.html