第七章是全文的总结,并分析出现的问题,对未来的研究进一步优化。
2 系统搭建
2.1 语音识别引擎Sphinx-4
语音识别技术是一种利用计算机把语音信号转换为相应的文本或命令的方法,有关的研究很早就已经展开[8]。目前,国际上比较有代表性的商用语音引擎主要有:IBM 的IBM VIAVOICE、微软的Microsoft Speech SDK、Nuance 公司的Nuance 以及卡内基梅隆大学开发的Sphinx语音引擎等,这些语音引擎对于英语语音的识别率比较高,而由于汉语中的同音字和同义词比较多,因此与英语相比,汉语连续语音识别还存在不少问题,特别是对于舰艇指挥训练系统的特定环境下的研究还鲜有报道。
2.2 Sphinx-4系统架构
2.1为Sphinx-4的识系统架构,主要包括三个模块:FrontEnd,Linguist和Decoder,各个模块的功能如下:
2.1 Sphinx-4系统架构
FrontEnd:由一个或多个处理计算信号的并行处理器模块构成,主要根据输入的语音信息提取其中的一个或多个语音信号,将其参数化为一系列的特征序列,用于Decoder模块的输入;
Linguist:结合语言模型中描述的文法、发音字典中发音以及声学模型的特征参数,得到Decoder模块使用的搜索路径,并隐藏产生搜索路径的整个复杂过程;
Decoder:将FrontEnd模块得到的特征序列与Linguist模块产生的搜索路径进行匹配完成解码过程,产生最终的识别结果并输出。
Sphinx是由美国卡内基梅隆(CPU)大学开发的,使用Java语言编写的连续英语语音识别系统,该系统具有大词汇量、非特定人语音识别等特点,且鲁棒性强、识别率高,并且代码为开源代码[9].
3 船舰指挥指令规范
舰艇指挥调度指令是指舰艇在指挥调度系统中使用的通用规范用语,一般由连续的汉字数字和简短的汉语调度指令组成,该指令用语遵循船舰指挥指令规范格式。
3.1 指令的语音特征分析
表3.1和表3.2给出了一组舰艇指挥调度语言的格式。
表3.1 指令格式
被呼叫席位号 指令内容
021 请报告方位
表3.2 指令回复格式
席位回复 回复内容
021收到 当前方位是 东经118.36 度 北纬32.11度
由以上两个表的内容可以看出舰艇指挥调度指令具有一定的规律性,主要由数字和舰艇指挥专用术语组成,所用到的汉字大约为100个左右,其样本空间数较小,很适合语音识别技术的运用。
本文中船舰指挥指令的规范采用的两种格式,即调度指挥用语,通常为字符串形式,席位号由三位数字组成的字符串,如021,012等。指令回复的内容是坐标,标准是经纬度数,如东经118.36度,北纬32.11度等。
3.2 特殊语音识别
音节由音素组成,汉语音节不做音调区分有400个音节,相较于英文音节的48个音素组合有更多的可变性。在语音录入时,要注意口音和发音不准确以及同音字,解决这一问题需要建立库内容的扩充,通过同音字词语的识别分辨所录入的内容。录入文本的集合为语料库,本文的语料库记录了船舰指挥调度指令的规范用语,用于试验时统计词语的概率。具体内容参考4.4章的注意事项。
4 声学模型的训练
在连续汉语语音识别中,声学模型的建立和训练是关键步骤之一,通过声学模型,可以估计待识别特征矢量序列所对应的语音识别单元,以便将特征矢量序列转换为语音识别单元[10].
4.1 建立声学模型
声学模型的建立与语音发音密切相关,这里我们结合汉语发音特点选择合适的声学训练单元进行模型的训练。汉语语音常用的单元有:词、音节、声韵母、音素等[11]。汉语音节特点在于它由声母和韵母组成,考虑到本文中的语音样本小,且连续语音中存在协同发音的情况,所以本文声学模型选择上下文相关的音素模型,即比较常用的比较常用的三元音素模型,以上述中提过的席位号“021”为例,使用三元音素模型表示如下: 基于中文语音识别技术的指挥训练系统的设计与实现(3):http://www.youerw.com/zidonghua/lunwen_10997.html