基于KINECT的语音分离技术研究(2)
时间:2022-05-15 09:52 来源:毕业论文 作者:毕业论文 点击:次
致谢 27 参考文献 28 1 绪论 语音分离是当今数字信号处理的一项重要的前沿研究领域,在语音处理、声纳和地震、语音通信、声学目标检测、无线通信等方面有着重要的实用意义[[1] 杨毅, 李泽伟, 邓北星,等。 语音信号处理实验的改革与实践[J]。 实验室研究与探索, 2014, 33(4):123-126。][1]。而在人工智能方面,语音分离技术在实现说话人识别、人与机器间的语音交流、声源位置的确定等众多领域也拥有广泛的使用价值。语音分离技术涉及到神经网络、概率论、信息论、线性代数及随机过程的相关知识,是一个十分活跃的前沿领域。 当前对听觉场景分析技术的探索仍然处于初期阶段,因此现在的语音分离任务一般被作为盲源分离(Blind Sources Separation, BSS)问题处理,利用源信号的一些统计特征将混合的输入信号解混以获得需要的语音信号,而独立分量分析(Independent Component Analysis, ICA)又是其中最常用的方法。本设计主要针对几种ICA算法,在具体的分离任务中进行性能对比。 1。1 语音分离问题出现的原因 在一个喧闹的场所,如一场鸡尾酒会中,即使周围的噪声很大,我们仍然能听到同伴的声音;有或者即便周围有多个说话者,我们还是可以听见别人在较远处叫我们的名字或其它我们感兴趣的事物,这便是声学领域有名的“鸡尾酒会效应”。即在复杂的背景环境中,人类能够有效并自主地选择并追踪某一说话人的声音。而将这一能力应用到计算机上,却是相当复杂,即语音处理领域的“鸡尾酒会问题”。这也就是语音盲分离技术亟待解决的问题,也是其被提出的原因。由此而出现的盲源分离和ICA方法,两者的发展是紧密联系的。 1。1。1 盲源分离 盲源分离技术是指在原始信号和混合矩阵不明的情形中,运用统计特征,将混合的输入信号里解混为相对独立的分量。“盲”指的是理论上不要求对输入的混合信号和系统的传递函数(即混合矩阵)具有先验知识,即源信号不可测和混合系统特性未知两个方面[[2] 付荣荣。 基于经验模态分解和单通道盲源信号分离测量两相流速度[D]。 辽宁大学, 2011。][2]。可是在实际应用中,将一组混合的输入信号分离出几个独立分量,分解的结果并不是确定的,所以我们在分解时总是需要加入一些假设作为前提,以此获得更加确切的分离效果。 1。1。2 独立分量分析 目前BSS问题中典型的求解策略是独立分量分析法。独立分量分析方法的主要目标是当处于多个信号源与混合矩阵不明的情况下,求解出一个分解矩阵,以致经过该矩阵解混得到的输出尽可能的还原源信号[[3] 李杰。 盲信号分离的优化技术研究[D]。 南京信息工程大学, 2011。][3]。ICA作为目前最主要的盲源分离方法,也是当前使用最多的语音分离的解决途径。通过ICA的研究,可以把常用的几种语音分离算法统一起来。论文网 1。2 语音分离技术的发展历程 1。3 语音分离技术的应用与展望 当BSS的理论研究发展到了日趋完善的阶段,学者们开始着手于BSS现实运用方面的探索。如今,BSS技术在许多方面都有广泛的应用,下文将从和语音分离相关的两个主要领域进行介绍。 1。3。1 语音识别 语音分离领域最典型的应用便是语音的分离识别。如何将我们所需要的语音信号在复杂的人声环境中分离出来以供识别是当前语音分离领域最主要的问题,即在多个信号混合而成的混叠信号中分离出我们感兴趣的信号[[27] 张伟。 欠定混叠语音信号盲分离方法研究[D]。 山东大学, 2007。][27]。因为在实际情况下的语音识别系统中,系统的环境千差万别,根据放置的多个传感器间的距离,麦克风的灵敏度、信噪比、频率范围等构造因素,甚至是所处室内环境墙体的材质,都会对语音的传输带来很大的差异[[28] 李虎生, 刘加, 刘润生。 语音识别说话人自适应研究现状及发展趋势[J]。 电子学报, 2003, 31(1):103-108。][28]。另外,在实际的情况下,不同于人工合成的实验用信号,实际的语音分离问题针对的是混叠信号和周围环境卷积共同作用下的卷积结果,如果针对某一特定环境制定识别器,将无法在其他环境中有良好的分离效果,这也是盲源分离在语音识别领域很重要的原因[[29] 张霞。 粒子群优化算法在语音信号盲源分离技术中的研究[D]。 沈阳航空航天大学, 2013。][29]。 (责任编辑:qin) |