1。2。1 说话人转换的概况
从五十年代开始,贝尔研究所就开始研究语言识别,当时可以识别十个英文 字母。到了六十年代,世界上第一个通过计算机实现的语言系统在英国出现。到 了七十年代,语言识别技术得到了长足的发展,各种偏僻的词语都可以得到识别。 八十年代以后,人们的研究方向朝着大词汇量方向发展,同时还可以对非特定的 目标的语言进行连续的识别。研究思考也随之发生了改变,从研究标准版本的语 音匹配,朝着向基于统计模型发展,使语言识别不在呆板,可以识别各种不同的 声音。同时引入神经网络技术,让语言识别技术得到了新的思路。到了九十年代, 语言识别技术的相关产品以及工业化方面得到了长足的发展,但是在研究框架方 面仍停留在以前的水平。但是各个国家从没有停止对语言识别技术的研究,美国, 日本,英国等发达国家都投入大量时间金钱对语言识别展开研究。如美国 DARPA 计划,日本先进的人机界面和自动电话翻译系统。
我国也早就开始了对语言识别技术进行研究,早在五十年代,中国科学院就 开始了这方面的研究。但是由于当时的国家环境,技术研究都停滞不前,一直到 了七十年代,才开始做计算机语言识别相关方面的研究。到了八十年代,随着改 革开放的政策,人们越来越意识到技术的重要性,因此数字信号技术得到了巨大 的发展。从而推动了语言识别技术的发展。国内许多研究单位纷纷开始了这方面 的研究,国家也颁布了高科技发展技术,语言识别因为其重要意义,被列为重要 课题去研究。我国各个企业也争相推出关于语言识别方面的产品,这无疑与研究 相辅相成,共同推动了语言识别的发展。
但是语言识别也存在着不少问题,首先语言识别的信息量很大,每个人说话 的方式都不同,导致了识别的难度。其次,语言具有模糊性,需要对有用的语音 信息进行放大识别。还有环境噪声对语言识别的干扰很大,需要对语言进行降噪 处理。语言识别一直在进步,但是需要一代甚至几代人去研究它。这样这门技术 才能更好地造福人类,促进社会的发展。
1。2。2 说话人转换的基本原理
说话人转换方式有很多,但是最基本的都离不开转换时的训练阶段和转换阶 段,其中训练阶段是为了得到转换所需要的转化函数,而转换阶段,顾名思义就 是源说话人和目标说话人之间的语音转换。基本流程如图 1-2。
基本的流程转换框架来*自-优=尔,论:文+网www.youerw.com
人的语音说话特征分为音段特性与超音段特性以及语言特性,音段特征包括 谱包络,谱激励;超音段特性包括基频,时长,幅度。大多数说话人转换方法着 重于音段特征的转换,很少人研究超音段的基频、时长等特征。
由图 1-1 可得在说话人转换的训练阶段,转换函数的得到有着各种各样的计 算方法,我们根据不同的转换函数的计算方法可将说话人转换方法分为下面几 种:
(1)码本映射法(Codebook Mapping) 码本映射法是被最早提出用于解决说话人转换方法的一种算法。同时也是后
期算法衍生的一个基础。其优点是将训练阶段的转换函数用码本的形式表表示出 来,这样在转换阶段只要恢复映射码本就能得到目标人的语音,但是它的缺点也
是非常显著的,不能够得到很好的音质,并且伴随着噪音和颤音,在实际的应用 中效果不大。图 1-3 和图 1-4 就是映射码本的生成和转换过程。