迎宾机器人语音合成技术与识别技术研究现状

迎宾机器人语音合成技术的发展机器人语音合成是指将外部任意输入的文字或者计算机本身的文本按照规定的转换规则转换成语音形式记录下来，并且能用特定的语调和语速读出来的过程。简而言之，语音合成技术就是将文字转化成相应语音的技术，简称为TTS（Text to Speech）技术[11]。TTS技术是多个学科交叉的产物，它涵盖了语言分析、计算机应用、信号处理、声学原理分析等知识。
计算机编程的迅速发展以及信号处理技术的崛起使得语音合成技术得以发展[12]。语音合成技术需要解决如何让计算机发出连续、自然、清晰声音的难题。语音合成技术的发展始于20世纪60年代，由于汉语较其他语言更为复杂，我国的语音合成技术始于80年代。我国最先进行汉语TTS研究的是中国科学院声学所。随着国家“863”计划的落实，汉语TTS技术发展迅速。清华大学早期开发的Sonic系统及1993年研发的YH_SPEECH系统具有重大的影响，中国科技大学研发的KDTALK汉语语音合成系统及科大讯飞公司的语音合成系统等已经在日常生活中得到广泛的应用。33737
TTS技术有两种合成方法。早年大多使用共振峰合成技术，在参数调整得十分合适的情况下共振峰合成器就能合成出非常清晰的声音。1987年美国DEC（Digital Equipment Corporation）公司研发的语音合成系统DECtalk是共振峰合成技术最具代表性的产物。即便使用共振峰合成方法所合成的语音十分真实清晰，但想要寻找到非常精确的共振峰参数并不简单，过程非常复杂。
1990年基音同步叠加法（PSOLA）法开始在语音合成领域广泛使用。PSOLA法是将时域波形拼接来实现语音合成，因此应用PSOLA法所合成的语音在连续性、自然度和清晰度上都优于应用共振峰合成方法所合成的语音。由于基于PSOLA方法的语音合成更容易实现，因此在近年的语音合成当中多使用PSOLA方法。论文网
2 迎宾机器人语音识别技术的发展
语音识别技术是指通过识别、分析、辨认出人类语音，并将这些语音信号转换成文本或者命令传达给计算机的过程[13]。语音识别技术具有巨大的应用前景，它可以应用于家用电器、医疗设备、通信设备等，能给人类生活提供巨大的便利。语音识别技术是多门学科技术交叉的产物，其中有模式识别技术、计算机技术、信号处理技术、声学研究技术等[14-16]。
1952年语音识别技术开始出现，最早的语音识别系统由贝尔研究所开发，它虽然只能识别10个英文数字但是却标志着语音识别技术的诞生。从1980年开始，语音识别迅速发展，由早期的基于标准模板匹配的算法转变成基于统计模型（HMM）的算法[17-19]。
语音识别技术出现二十年后，国内语音识别技术才开始起步，二十世纪七十年代中国科学院声学所开始对语音识别进行开发。在863计划的实施下，语音识别技术进入了发展的全盛时期，1987年清华大学开发的语音电话号码查询系统投入使用[20-22]。
近年来，语音识别在移动设备中应用十分广泛，以苹果公司的siri语音为代表，国内云知声、科大讯飞等研发的语音识别系统已可用于不同场合不同声音的连续语音识别。迎宾机器人语音合成技术与识别技术研究现状:http://www.youerw.com/yanjiu/lunwen_30995.html