第一章,绪论。简单地介绍了课题的研究背景、研究的意义以及国内外已有的研究成果,了解后给出了本系统需要实现的功能以及实现的具体方法。
第二章,语音合成技术的分析。了解中文语音合成技术的现状,以及应用情况。论文网
第三章,系统总体设计。根据本文的课题背景,根据系统所要实现的功能和总分设计的思想,把系统细化成一个个独立的子单元,最后确定出能够达到技术指标的系统方案。
第四章,系统硬件设计。根据各个单元的功能确定使用芯片的类型,根据单元的性能要求确定型号。参考芯片的使用手册画出外围电路图。最后,按照系统所要实现的功能确定各个单元间的连接。
第五章,系统软件设计。程序设计使用的是从顶层开始往下一步步细化并对细化后的各个部分进行模块封装的设计方法。本章对主要程序以及各个模块的封装程序设计进行了详细的介绍。
第六章,系统调试和功能测试。本章主要检验系统电路连接的可靠性和程序的稳定性,先局部后整体依次进行测试,记录好调试结果。并通过所得的调试结果,分析出系统设计存在的不足之处,为后期的改进提供依据。
2 语音合成技术的分析
本系统的主要功能就是合成语音,目前合成语音大致分为三种方法。这三种合成方法代表着语音合成发展的三个阶段。
首先是模拟发声,究其根本就是利用数学建模的方法重现人的发声过程;然后是源-滤波器,其基本原理是通过对声源产生的信号进行数字信号处理来实现声音的合成;最后是拼接波形,其原理是从事先建立好的声库中挑出元素进行连接产生声音合成效果。现有的合成语音设备基本上都是根据这三种方法中的一种来构建的。其中,Kempelen和Euphonia的讲话机属于模拟发声法,线性源到声道合成和共振峰合成属于源-滤波器法,基音同步叠加和CHATR属于基于拼接波形的方法。下面对这三种方法做一下详细的介绍。
2.1 模拟发声合成法
模仿是人们认识陌生事物的开始。因此在语音合成初始阶段,模拟发声合成成为最早出现的合成法。通过对人发出声音过程中发音器官产生的变化进行研究后,利用数学方法建立起这个过程的数学描述,反映出发声时气流运动的主要特征。这种直接对发声过程模拟的合成方法是相当困难的。因为现实情况中准确的模型参数是不容易得到的,因此要很好的重现出人的发声过程,合成出高自然度的语音基本上是实现不了的[ ]。
2.2 源-滤波器合成方法
2.2.1 LPC合成
LPC 方法是线性源到声道语音发生模型中的一种数字滤器。LPC合成技术的优点明显,合成过程简单、结果直接, 对于每个合成元素来说能取得挺高的自然度。它是一种时刻波形的压缩技术, 从根本上来说不过是一种录好声音后重新播放, 对于拼接整个连续声流, 其结果并不合适的。因此, LPC合成技术必须融合其他方法, 才能显著提高 LPC合成的音质。
2.2.2 共振峰合成
共振峰合成是一种对已知模型的模拟。声音的音色由共振峰频率来确定。声音共振峰就是声音传播频率响应曲线上的极点。因此,根据频率响应曲线上的极点和波特图上的固有带宽可以实现该滤波器。实验表明,用以表示声音中的元音只需要前三个频率点就够了,但是表示繁杂的鼻音和辅音,则至少需要多加两个频率点才能较好地实现[ ]。得到滤波器后对这些滤波器进行组合,这样就能够很好地描述出声音的频率响应特征,再根据一定规则改变声源发出声音的幅度、相位和频率,再通过发声模型的作用后就可以得到所需语音[ ]。共振峰滤波器组合形式有下面三种常见的模型:串联形式的共振峰模型、并联形式的共振峰模型和混合形式的共振峰模型[ ]。只要共振峰合成的参考选择适当, 就可以用较小的花费产生具有高自然度的合成结果, 同时, 通过改变参考可得到不同性质的结果。但其根本的不足是合成参考难以自主地精确预计, 往往需要人为修改。20 世纪 90 年代以前, 共振峰合成器是合成语音最常用的手段,也是当时最流行的方法[ ]。