第一章 绪论
1.1背景
曾经听到有人说过这样一句话:“语音技术将在未来十年飞速发展”!可以想到的是人的声音将成为任何软件与硬件间最自然的用户交互方式,这一在过去只能想象的事情将在不久的将来得以实现。我们的电脑可以发出和真人几乎一模一样的声音,社交通讯软件、电子邮箱、查看网页等常规计算机活动将会被语音所驱动,这样将大大的方便人们的生活。多种语言的文语合成有着特定的使用价值。现在已经开发了很多语音合成系统,但是大多数原理是对一特定的语言,比较难扩展,然而我们期望的多种语言合成系统是可以共用一个系统的,这样就能推广开来。有些语言之间本身具有很大的不同,所以对一种特定语言制作的系统很难再嫁接到别的语种上面,像在中国这样的多方言的国家,每个方言间有着自己独特的发音规则,一些相差较远的方言间是很难适用同一套发音规则的。由此可以看出,要想使这一难题变得可解,我们必须换个角度去思考问题,以求能实现我们预期。我的课题针对实际应用的需要,对很多已有的系统进行研究分析,也就是需要借鉴别人的研究来做进一步研究,虽然早已有成型的双语发音合成系统,但是我通过这次对发音的研究要达到锻炼自己的目的。[19]
1.2可行性分析
最近几年,一种新兴的依靠语音数据库的语音合成技术得到了广泛使用。这种方法是怎么实现的呢?发音的内容其实是由一个个的语音单元组成的,而这些组成部分是我们提前录制好的,然后存放在一个统一的数据库里。在我的系统中使用的就是微软的语音包 Microsoft speech sdk 5.1,可以设想,当我们存放了足够的语音单元时,这些单元包括各种可能的情况,这样一来就能读出我们给的每一个语句。由于数据库里的声音都是录制的真人说话,那么合成语句的质量问题将不会被担心。
我 国 的 汉 语 语 音 合 成 研 究 开 始 时 间 相 对 于 其 他 国 家 比 较 晚 , 直 到 2 0 世 纪 8 0 年 代 初 期 , 我 国 汉 语 语 音 合 成 研 究 才 能 够 基 本 与 国 际 上 研 究 接 轨 。 我 国 的 语 音 合 成 发 展 经 历 了 哪 些 过 程 呢 ? 包 括 共 振 峰 合 成 、 L P C 合 成 到 应 用 P S O L A 技 术 的 过 程 。 在很多国家政策的支持下,我国语言的发声都有了非常非 常 大 的 进 步 。许多大学还有公司的相关研究成果和产品都出现了,这 些 都 表 明 我 国 的 声 音 合 成 有 了 飞 速 的 发 展 。基于以上合成语音的发展历史以及发展现状,将文本转化为声音是可行的,而且也有很多现有的产品已经实现了。利用已有的语音包,选择合适的平台和技术,就可以实现一个好的中英文朗读系统。
1.3 语音合成技术
什么是语音合成技术呢?就是指将一系列文本内容,按系统设定的语音处理规则转换成语音信号输出,也就是机器像真人一样把文字读出来,就像聊天时听别人讲话一样。这样人们就可以不用将眼睛始终与电脑屏幕绑定,还可以适当做其他事,缓解眼睛疲劳。语音合成就是这样一个文字转语音的过程。语音合成技术是很有意义的技术,它是很有前景的,相信在不久的将来一定可以看到很多地方在使用,具有非常重要的实用价值。在平常生活中,中英双语同步混合出现的情景是非常普遍的,就在我们周围,文章昵称都有很多中英双语的现象。而本课题主要研究的是也中英文的语音合成问题。 文献综述
1.3.1 语音合成的发展方向
( 1 ) 使 合 成 语 音 的音质更加自然 : 对 于 汉 语 语 音 合 成 系 统 来 说 , 目 前 在 单 个 字 和 单 个 词 语 这 一 阶 段 上 , 合 成 语 音 的 可 懂 度 和 自 然 度 已 经 基 本 上 得 到 解 决 , 系 统 可 以 很 清 晰 自 然 的 朗 读 一 个 字 或 者 词 语 。 但 是 到 句 子 或 者 段 落 甚 至 一 整 篇 文 章 这 一 阶 段 时 其 自 然 度 就 大 打 折 扣 , 达 不 到 我 们 想 要 的 效 果 , 朗 读 结 果 是 很 生 涩 的 , 不 被 大 多 数 人 接 受 。 因 为 它 的 原 理 是 采 用 自 然 语 音 波 形 直 接 相连的 技 术 , 连接的单元都是数据库里已经有的, 所 以 只 能 朗 读 的 比 较 不 连 贯 , 无 法 表 达 一 些 应 该 有 的 抑 扬 顿 挫 。