到了90年代,自然语音的识别被人们所研究,例如口语对话和人机语音交互。语音识别开始采用人工神经网络技术(ANN),成为语音识别的一条新的方法。
1958年,中国开始研究语言识别,中国科学院声学所采用电子管电路来识别10个元音。中国科学院声学所直到1973年才开始研究采用计算机进行语音识别。因为那时的局限性,中国语音识别的研究工作一直发展比较缓慢。
在80年代后,由于中国逐渐普及计算机应用技术和数字信号处理能力的进步,在国内很多单位具有了研究语音技术的基础设备。同时,在国际上,语音识别在经过了多年的沉寂后又重新成为了研究的热门。在这种情况下,国内很多单位都纷纷开始语音识别技术的研究工作。来自优I尔Q论T文D网WWw.YoueRw.com 加QQ7520~18766
1986年,中国开始实施高科技发展计划,人们把人工智能的一个重要组成部分“语音识别技术”列为专门的研究课题。在863计划的政策下,中国开始了有组织的、有规划的进行有关语音识别的研究,并且每两年都会举办一次有关语音识别的会议。在开展863计划之后,中国的语音识别技术进入了的蓬勃发展时期。
人工智能将会带来新的科技,语音识别技术作为人工智能的一部分,将会在智能家居、信息搜索、语音翻译、数字图书馆等众多领域发挥巨大的作用。
1。2 语音识别系统概述
图1。1为语音识别系统的总体结构框图。从图中可以看出来语音识别系统由特征提取、模式匹配、参考模式库等单元组成。对于语言信号要进行预处理,因为语言信号是非平稳信号,加上外部噪声,电流干扰等。语音识别分为两个阶段,一个是训练阶段,一个是识别训练。在训练阶段,首先将录制的语音信号输入,对其进行预处理(采样量化、端点检测、预加重等)。接着进行特征参数提取。然后训练每个词得到模型,将其保存为模板库。在识别阶段,将语音信号进行相同处理获得语音参数,与模版库进行匹配(测度估计、识别决策)。最后,将与测试模板差值最小的参考模板作为识别结果输出。
图1。1 语音识别系统总体结构
2 语音信号的前期处理
2。1语音信号的预处理
2。1。1 语音信号的采样和量化
人发出的语音信号是模拟信号,需要对其进行采样量化变为数字信号。语音信号的频率为40Hz至3400Hz,由奈奎斯特采样定理,本实验的采样频率为8kHz。
在语音信号数字化处理之后,需要再对语音信号进行抗混叠滤波,也就是对其进行低通和高通滤波。
(1)为了抑制电源干扰信号可以采用高通滤波器进行处理。论文网
(2)为了抑制输入信号频率高于 fs/2 的频率分量(fs 为采样频率),可以采用低通滤波器,从而避免了混叠干扰。
在MATLAB 仿真软件中,对语音信号进行抗混叠滤波处理,可以调用 Butterworth 数字高通滤波器和低通滤波器。
2。1。2 语音信号的预加重
人发出的语音信号高频处会产生衰减,因此,需要对语音信号的高频分量采用预加重处理。预加重的功能是提升已经衰减的高频能量,从而来获得比较平坦的语音信号的频谱,这样有利于提高语言固定文本的识别能力。可以采用预加重滤波器对语音信号处理,如图2。1所示。
图2。1 预加重滤波器
2。1。3 语音信号的加窗处理
语音信号是一种时变信号,它的能量会随着时间而变化。在10~30ms 时间段里,可以认为语音信号的频率特性是不改变的,因此可以将语音信号划分为一个个短时段,称每一个短时段为一帧。也就是给语音信号加窗。在数字信号处理中,多采用矩形窗、汉宁窗和汉明窗对语音信号进行加窗处理。