8 component float 8 否 第8分量
表2-5B特征参数表
2。6 本章小结
本章主要对识别器的仿真平台进行了简单的描述,本章对简单介绍语音识别的3个模块与语音识别的7个基本处理步骤,并且说明了数据库的建立。
3 语音识别技术概述
3。1 语音识别的预处理
与其他的语音技术一样,语音识别的预处理信号是数字信号,与模拟信号相比,数字系统更加安全可靠、更能快速的完成识别,更能及时的完成识别工作,更重要的是语音信号本身具有离散的性质更适合使用数字信号。
在对语音信号处理前得进行预处理。预处理包括信号的采样、量化、滤波、加窗、端点检测和预加重等。
去除噪声:尽可能的去除识别环境的噪声,保留后续处理需要的语音;论文网
端点检测:检测语音起点,也就是确定语音的起止,排除无用语音,为后续处理保留需要的语音。
有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编码效率。
本次仿真的端点检测是使用基于短时能量和平均过零率的双门限端点检测。
短时能量定义: 。
短时过零率定义:
3。2 语音识别的特征提取
特征提取是取得一组可以用来描述语音信号特征的参数,基本思路是将信通过变换去除冗余部分,将代表语音本质的特征参数提取出来,本次仿真的特征参数Mel频率倒谱系数(MFCC)。与常规的基于频率的倒谱不同,MFCC着眼于人儿听觉特性故而它的频率轴是不均匀划分的Mel与频率f的关系为 。MFCC的静态特征为 ,如要得到动态特征则对其进行一阶与二阶的差分。
3。3 语音识别的距离测度
在将输入信号作为码书矢量表征时会出现误差或者说是代价,我们称此为失真。而失真测度关系着系统的性能失真测度,失真测度有欧式距离、LPC失真测度、识别失真等多种测度。
3。4 语音识别的参考模式库
以声源的多次重复的语音参数为准,其中的无用信息要删除,保留有用的数据信息,再按一定规则把数据进行整合聚类得到的。
3。5 语音识别的训练方法
语音识别的训练方法有很多,如DTW(用输入语音模式与预存的参考模式进行模式匹配)、HMM(以统计方法进行识别)、VQ(基于信息论中信源编码技术的识别)。
本次训练方法是VQ,该方法适用于小词汇孤立词的语音识别。它的过程:对欲处理的大量语音K维帧矢量通过实验进行统计划分,将K维的无限空间划分为M个区域边界,各区域边界对应一个码字;所有码构成码本。识别时,将输入语音的K维帧矢量与已有的码本中M区域边界进行比较,按照失真最小测度找到与该输入最为接近的K维矢量,而对应的码字为输出结果。再对它进行K维重建得到被识别的信号。
3。6 本章小结
语音识别包括预处理、特征提取、距离测度、参考模式库、训练与识别方法、专家知识库、判决等步骤。只有选择了正确的端点检测方法、特征提取参数、训练方法,语音识别器的性能才能得到保证。
4 仿真设计与测试文献综述
仿真技术作为一种高新技术,受到世界各国的普遍欢迎,它以计算机系统为基础,根据用户要求建立一个数学模型,并使之转化成为仿真模型,然后在计算机系统中运行演示,从而真实展现实际系统运行状态的过程。是人们进行系统分析、优化设计、性能评估、允许应实验、教育培训、操作训练的有力工具。本次实验是基于Matlab矩阵实验室这个平台进行仿真的。仿真实验相比实物操作更加节省时间。