声源定位技术作为一门新兴的、交叉性强的学科,主要方法是通过模拟人耳的听觉机制、利用嵌入到人工头中的麦克风传感器来收集外界声音信号,辅之以语音信号处理技术进行分析处理,从而实现对声源位置信息的获取与识别,进而实现对声源的定位。声源定位技术所涉猎领域很广,包括但不限于信号处理、人工智能、信息通讯、听觉心理与生理学等,随着人工智能的迅速发展以及人机交互的需求激增,声源定位技术日益凸显出其重要性。
声源定位技术的应用极广:可用于电话会议、视频会议系统,以实现摄像头实时跟踪、对准并聚焦发言者;可用于说话人识别或者语音识别的预处理阶段,改善语音信号的质量,提高识别的正确率;可用于安防视频监控,当摄像头被遮挡或光线不足时,依旧可以对指定区域进行有效监控,发现异常声源时可及时报警;可用于助听装置中,帮助有听力障碍者对声源进行定位以及有效识别语音;可用于噪声强、低SNR时的声源获取,例如嘈杂场所的语音识别,可提高声信号的纯净度与质量等。论文网
声源与左、右耳距离的差异会导致声源到达两侧耳朵的时间不同(即延时)与声强度不同。双工理论是最早的声音定位理论,由Lord Rayleigh于1907年提出,该理论正是基于无耳廓人工头的双耳间的时间差,双耳时间差作为声源定位主要线索,听觉系统能够根据时间差等耳间线索判断出位置信息。以往的声源定位算法及理论也存在着某些缺点:存在前后混淆与锥面模糊现象;缺乏对单耳的定位机理的了解;在含噪条件下的定位效果会下降很多导致定位准确性降低。因此本文提出基于神经网络的声源定位算法以获取更好性能。
1。2 声源定位的研究方法概论
声源定位作为作为当下研究重点之一,研究方法种类较多,纵观其研究理论大致可分为两大类:一是基于麦克风阵列,二是基于听觉线索(听觉场景分析)。
1。2。1 麦克风阵列
麦克风阵列(Microphone Array)作为阵列信号处理(Array Signal Processing, ASP)中最为广泛应用的一种,是由按一定的几何规律放置在不同空间位置上的多个麦克风所构成的阵列。麦克风阵列声源定位,顾名思义即用麦克风阵列来收集声音信号,拥有不错的空间选择特性,可抑制环境噪声及各种干扰声;接着整合采集到的多路声信号并进行SSP,最终给出定位结果,即单或多声源的三维空间或者二维平面坐标。
基于Microphone Array的现有声源定位法主要有三类:
①基于可控波束形成的声源定位技术。该方法是对每个阵元所采集到的声信号权重重分配后求和得到波束,波束引导后声源所在位置就是输出上的最大功率点。该定位方法提出时间较早,已在雷达、声纳以及移动通信等领域得到广泛应用,但是对噪声和混响比较敏感,鲁棒性较差。并且在实现过程中需要全局搜索,运算量大,计算复杂度较高,难以实时实现,进一步限制了该方法的应用范围。
②基于高分辨谱估计(High-resolution Spectral Estimation)的定位技术。高分辨谱估计主要有特征子空间分解(Eigen-Subspace Decomposition,ESD)、最大熵(Maximum Entropy,ME)、自回归(Autoregression,AR)模型、最小方差估计(Minimum Variance Estimation,MVE)等方法。其中子空间技术(Subspace Technology)是ASP中最基本也是最重要的方法之一,基于子空间估计的方法一般具有很高的定位精度,但应用对象是远场窄带信号,不适合近距离的定位系统,实际应用中往往不能满足这些条件。
③基于到达时延差(Time Difference of Arrival,TDOA)的声源定位技术。该定位技术也可称为基于时间延迟(Time Delay,TD)的定位技术,TD是指由于信号传递路径不同引起阵列中不同接收器接收到信号的时刻不同导致的延迟。TDOA定位技术主要分为两个阶段:首先进行时延(时间差)估算并得到阵列中阵元之间的TDOA;其次利用获取到的TDOA,配合所知的阵列间的位置,用几何、搜索等算法进一步确认声源的位置[1],简单地讲,就是估计TDOA以及TDOA定位两部分。该方法更适合单声源定位,多声源定位效果欠佳,但其定位精度较高,在现有的麦克风阵列定位法中计算量最小,在实际中可以实现。 BP算法神经网络的声源定位算法研究(3):http://www.youerw.com/tongxin/lunwen_86394.html