基于KINECT的语音分离技术研究(3)
时间:2022-05-15 09:52 来源:毕业论文 作者:毕业论文 点击:次
1。3。2 说话人识别 说话人识别指的是用待辨识的语音信号和之前提取出来的说话人的特征以确认和辨识说话人的身份。说话人识别的基本根据是不同人发声特征和声道特征[[30] 娄宇。 说话人识别系统的研究及实现[D]。 东北大学, 2007。][30]。理论上来说,说话人识别分为2个过程,分别是训练和识别。训练过程是提炼出说话人特性的流程,这个流程往往就要应用语音分离技术,因为大部分待辨识的音频信号都不是由单独的说话人构成[[31] 岳喜才, 叶大田。 文本无关的说话人识别:综述[J]。 模式识别与人工智能, 2001, 14(2):194-200。][31]。与之相关的应用最常见的便是语音检索。将语音分离技术应用到说话人识别中,就可以从由电话等设备每日生成的大量录音信息中检索出我们感兴趣的特定身份的人的说话内容[[32] 芮贤义。 噪声环境下说话人识别研究[D]。 苏州大学, 2005。][32]。再有,说话人识别也被应用于人工耳蜗的仿真,用以解决之前提到过的经典的“鸡尾酒会问题”。 语音分离的应用不仅仅只有在上述两种主要领域中,在其他领域如人机对话,定位声音方向等方面还有着诸多应用。 1。4 本文内容安排 本文旨在利用BSS技术和ICA方法处理不考虑噪音因素的瞬时混合语音信号的分离问题,使用Kinect采集真实的语音信号作为语音分离技术研究的实验数据,分别用3种分离算法进行语音分离并比对算法的性能差异。 第一章是绪论,主要介绍了语音分离问题出现的原因及待解决的问题、语音分离问题的主要解决方式:BSS技术和ICA方法及其发展历程、语音分离技术的运用与展望。 第二章主要介绍与课题内容相关的基本知识,包括一些信息论与概率学上的基本概念,如信息熵,高阶累积量等;还描述了瞬时混合信号BSS的数学模型和一些基础特性,如不确定性。 第三章介绍了三种常用的解决算法,包括信息最大(Infomax)算法,联合近似对角化矩阵(JADE)算法以及固定点ICA(FastICA)算法。 第四章是实验流程介绍及实验结果分析,包括硬件设施Kinect的基本介绍,语音信号的采集与提取、分离、误差分析以及使用的三种算法的性能度量与比较。 末章是对本文工作的总结,指出了一些待解决的问题以及需要改进的地方。 2 语音分离相关基础知识 语音分离技术是多学科交叉领域,其涉及到包括信息论,概率统计学,神经网络在内的诸多领域,所以有必要介绍其涉及的一些基本知识与概念[[33] 梅铁民。 盲源分离理论与算法[M]。 西安电子科技大学出版社, 2013: 9-12。][33][[34] 杨福生 洪波。 独立分量分析的原理与应用[M]。 清华大学出版社, 2006: 17-24。][34]。 2。1 语音分离相关基本概念 2。1。1 熵 熵是信号去除多余的重复后拥有的平均的信息总量。“熵”一词本来源自于热力学,我们这里提到的熵并非常指的热力熵,而是信息熵,是信息论之父香农在1948年提出的。 对于离散的情况,设一个离散型随机变量的先验概率为,当我们忽略噪声干扰时,其后验概率为1,则其所具有的信息量为: 设该信源共输出了次,那么就出现了次,又若该输出有个不同取值,则次输出的总信息量为: 则平均信息量,即熵为: 单位视对数的底而定,常用的有:以2为底时单位为bit,以e为底时当为为nat,以10为底时单位为hat。 推广到连续的情况,设其PDF为,那么该信源的熵为: 2。1。2 高阶累积量 (责任编辑:qin) |