1)基于最大输出功率的可控波束形成技术。该方法对麦克风阵列接收到的语音信号进行滤波、加权求和,然后直接控制麦克风指向使波束有最大输出功率的方向;
2)基于高分辨率谱估计的定向技术。该方法利用求解麦克信号间的相关矩阵来定出方向角[14],从而进一步定出声源位置;
3)基于时延估计(TDE)的声源定位方法。该方法首先求出声音到达不同位置麦克的时间差,再利用该时间差求得声音到达不同位置麦克的距离差,最后用搜索或几何知识确定声源位置[25]。
1.2.1 基于最大输出功率的可控波束形成的定位方法文献综述
基于可控波束的定位算法,是早期的一种方法。该方法的基本思想是采用波束形成技术,调节麦克风阵列的接收方向,在整个接受空间内扫描,能量最大的方位为声源的方位。采用不同的波束形成器可得到不同的算法。该方法在满足最大似然准则的前提下,一搜索的方式,使麦克风阵列所形成的波束对准信号源,从而获得最大输出功率。基于可控波束形成的定位算法,主要分为延迟累加波束算法和自适应波束算法。前者运算量较小,信号失真小,但抗噪性能差,需要较多的阵元才有比较好的效果。后者因为加了自适应滤波,所以运算量比较大,而且输出信号又有一定程度的失真,但需要的麦克风数目相对较少,在没有混响时有比较好的效果。在文献[26]中最早提出该方法的理论基础,在文献[27]中进一步得出可控波束定位理论和实际的方差,并在文献[28]中将该方法应用于多生源的定位。
可控波束形成技术本质上是一种最大似然估计,它需要声源和环境噪声的先验知识。而在实际使用中,这种先验知识往往很难获得。此外,最大似然估计是一个非线性优化问题,这类目标函数往往有多个极点,且该方法对初始点的选取也很敏感,因此使用传统的梯度下降算法往往容易陷于局部极小点,从而不能找到全局最优点。如果采用别的搜索方法,若要力求找到全局最优点,就会极大的增加计算复杂度,从而不可能被用于实时处理系统。
1.2.2 基于高分辨率谱估计技术的定向方法
该方法来源于一些现代高分辨率谱估计技术(如AR模型,MV谱估计,MUSIC算法,特征值分解等[29])。虽然该方法成功的应用于一些阵列信号处理的系统中,但在声源定位中的效果并不佳,其原因有一下几方面:该方法需要通过时间平均来估计各麦克风之间的相关矩阵,这就需要信号是平稳的,且估计的参数是固定不变的。而声音信号是一个短时平稳过程,它往往不能满足这个条件,因此该方法效果和稳定性不如可控波束形成法。此外,该方法往往假设理想的信号源,相同特性的麦克风等这些在实际中不可行的条件。虽然可以通过某些方法减弱这些因素的影响,但这往往需要成倍的增加运算量[30]。由于房间混响作用,使信号和噪声有一定的相关性,这也会降低该方法的有效性。该方法还需假定声源离麦克风的距离比较远,且麦克是一个线性阵列,这样声波可以近似看成平面波。而这对需近距离定位的系统是不可行的[31]。高精度谱估计技术往往针对窄带信号,而声源信号往往是宽带信号,这也需要以增加运算量为代价来提高定位精度[32]。
1.2.3 基于到达时间差(TODA)的定位方法来~自^优尔论+文.网www.youerw.com/
基于时延的定位方法在导航系统、声纳系统等领域都有广泛的应用。该方法主要是估计各麦克间的相对时延,适合于单个的声源定位。由于每对麦克时延唯一对应一个双曲面,因此多个麦克对就可以确定多个双曲面。双曲面之间的交集从某种意义上就是声源的次最优估计。基于此原理产生出许多定位方法,各有自己的优缺点。