语音合成系统国内外研究现状

有实物或技术文档可考的语音合成始于18世纪70年代，分为机械式、电子式和计算机语音合成三个阶段[ ]。

18世纪后半叶，出现了机械式语音合成器，典型代表有Kempelen和Euphonia的讲话机。讲话机是通过模仿人的发声过程来实现机器发声。20世纪初语音合成进入了电子式时代，典型代表有1939年在纽约国际博览会亮相的Homer Dudley发明的VODER；1950年在哈斯金实验室Frank Cooper发明的模拟播放器。VODER的滤波器是固定的，难以实现频谱的复杂变化；模拟播放器合成语音需要合成语图，由于VODER和模拟播放器各自存在的不足之处，故难以得到推广。随着声学的不断发展，特别是在Fant的声学理论的指导下，出现了共振语音合成器，它属于参数合成方法。典型代表有Walter Lawrence的Parametric Artificial Talker(PAT)和Gunnar Fant的Orator Verbis Electris(OVE Ⅰ)。计算机技术的迅速发展带动了语音合成技术的进一步发展。合成技术进入了计算机语音合成的新时代。出现了数字式共振峰语音合成技术，其中Klatt发明的串并联共振峰合成器和Holmes发明的并联共振峰合成器，能够得到很逼真的合成音。该技术的不足之处在于难以准确提取共振峰参数，整体合成语音的音质难以达到语音合成系统的实际要求。随着计算机存储容量的增大和计算、检索速度的提高。语音合成研究领域出现了波形拼接合成方法，其中有基音同步波形叠加技术（PSOLA）和基于大规模语音库的语音拼接合成（CHATR）[ ]。在数据驱动合成技术逐步替代以往规则驱动合成技术迅速发展的时候，部分专家提出规则驱动回归的想法。因此，在21世纪初STRAIGHT（speech transformation and representation using adaptive interpolation of weighted spectrum）语音处理技术和隐马尔可夫统计模型相继被提出[ ]。68048

国内的中文语音合成研究兴起较迟，从20世纪80年代开始，也经历了共振峰合成、LPC（线性预测编码技术）合成到使用PSOLA技术的过程。比较成功的中文语音合成系统有1993年和1995年中国科学院声学研究所研发的KX-PSOLA和联想佳音；1993年清华大学研发的TH_SPEECH;1995年中国科技大学研发的KDTALK等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术。

中科大采用基于语音数据库的语音合成方法研制出KD-863中文语音转换系统。该技术是通过对汉语音节进行听感的量化归并，并给出相应语音基元库，合成时只要选取基元库里的元素便可实现韵律控制。语音基元库的元素是从自然声音中直接截取，故具有较高的自然度。之后中科大推出的中文文语转换系统KD-2000，论文网在文字预处理中采用层次化结构原理，同时使用大量统计和规律的方法，较好地解决了：特殊字符处理，分词处理和连接处理，使得汉语文语转换系统的音质有了很大提高。

中科院声学研究所先后完成了基于三种合成方法的文语转换系统的研究。第一个是LSI并联式共振峰合成器的汉语文语转换系统。第二个是以Klatt合成器为基础的文语转换系统。第三个是采用基音同步波形叠加合成方法实现的文语转换系统

语音合成系统国内外研究现状:http://www.youerw.com/yanjiu/lunwen_76459.html