广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。
1.1 语音识别的历史背景
早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。[2]而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间弯折Dynamic Time Warp技术。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。 尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。
1.2 历史研究、现状及发展
1.3 本文的主要内容
本论文的主要研究对象是特定人孤立词的语音识别,研究的重点在于对语音识别的理论概念的一个总体把握,目的是更清晰的理解语音识别的各个环节,在此基础上应用目前比较成熟的识别模型DTW实现孤立词得到语音识别。
第一章叙述了语音识别技术的背景及意义,简要的介绍语音识别的基本概念和发展历程,分析语音识别的研究的重点和难点,以及语音识别的发展趋势和应用,最后阐明本论文的研究内容和论文组织结构。
第二章阐明了语音信号的特征,为之后的语音信号处理打下基础。
第三章介绍了语音识别系统。这一章中,一步步地叙述了对语音信号进行包括读取、预加重、分帧、加窗以及端点检测在内的预处理,这是语音处理必不可少的环节,在端点节测中详细讲解了短时能量和短时过零率的双门限检测技术。
第四章阐述了语音信号的特征提取以及DTW语音识别技术。由于本课题采用MFCC参数,因而首先重点叙述MFCC参数原理及其实现方法,并用此方法对训练语音进行分析,建立语音模板库。之后,本章详细地介绍了DTW的原理方法,并提出针对实际情况的改进方案。
第五章介绍了具体的实现过程以及基于特定人孤立词汇的识别结果,并对测试语音进行了分析。
2 语音信号的特点
通过对发声机理的认识,语音信号可以认为是短时平稳的。[4]在5~50ms的范围之内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。一般而言,我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图2.1给出了这两种窗函数在帧长N=50时的时域波形。 voicebox基特定人的孤立词汇语音识别系统研究(2):http://www.youerw.com/tongxin/lunwen_4254.html