目 次
1 引言… 2
1.1研究背景及意义… 2
1.2当前发展现状 3
2 时延估计方法… 9
2.1 时延估计的物理意义 9
2.2 广义互相关时延估计方法…11
3 基于可控波束形成的定位方法 18
3.1 声源定位系统模型19
3.2 混响模型20
3.3 波束形成21
3.4 可控响应22
3.5用GCC形式表示SRP… 24
3.6 联合相位变换和可控响应功率 SRP-PHAT 25
3.7 SRP 的实现…27
3.8 空间平均与时间平均…28
4 SRP-PHAT 声源定位系统仿真28
结论 34
致谢 … 35
参考文献36
1 引言 1.1 研究背景及意义 视觉和听觉是人类接收外界信号的两个最主要的器官,据科学研究显示,声音占人类接收信息的 30%左右,尤为重要的是,当视觉信息的输入途径由于某种原因被截断时,如没有光亮,或目标物体被遮挡时,声音信号尤其显示出其不可替代的作用。再者,声音信息是对图像信息的一个重要的补充,因此对于声音的研究具有重大的意义。 近年来, 随着多媒体技术的进一步发展, 语音已经成为人机交互的一个重要方式。对语音智能化的需求日益提高,在噪杂的环境下,比如,大型会议室,新闻采访,网络聊天等, 我们需要对感兴趣的目标实现声音的定位和增强。 随着智能化程度的提高,机器人得到了广泛的使用,人类与机器人之间,以及机器人与机器人之间通过声音定位到对方,从而执行下一步的操作,这就需要机器人能够有效且正确的识别声源的位置,并且有可能与图像信息相配合实现,从而实现智能化的操作。此外,语音识别也需要我们首先定位出感兴趣的声音,然后增强感兴趣的声音,再而识别出特定的说话人。仿生听觉系统需要解决三个问题,1)定位出声源的位置,2)从众多信号出分辨出特定声源多产生的信号,3)对分辨出的信号进行处理,定位出声源的位置并抑制响应的噪声是仿生听觉系统的前提和先觉。 仅有两个方向的输入信息是很难定位声源的位置的,人类的听觉系统主要靠声波在头部和外耳廓声压差来实现声源的定位的。如果没有这种声压差,是可以定位在平面上的声源位置的,但是就会分辨不清楚声音是从前面来的,还是从后面来的。因此,从人类的听觉系统,我们得到了启发,使用多个麦克风的系统可以定位出三维空间中的声源位置,麦克风的数量越多,所接收的信息也越多。 麦克风阵列信号处理是数字信号处理领域的研究热点问题,麦克风阵列接收的信息量大源]自{优尔·~论\文}网·www.youerw.com/ ,可以利用各阵元信号之间存在的先关性对输入数据进行融合处理以实现对待测参数的估计,这种融合处理不仅可以在时域处理,也可以在频域处理。麦克风阵列信号处理技术可以在统计学的意义上得到待测结果,该技术已经在无线通信,雷达,声纳,工业控制监控川等场合得到了广泛的应用。 由此可见,声源定位与声源增强是实现智能化处理的两个关键性问题,而声源定位是实现声源增强的前提和基础。单个麦克风接收的信息量少,缺少声源定位所需要的信息,而麦克风阵列克服了上述的缺点,利用了各个麦克风信号间的相关性对数据进行融合从而可以实现声源的定位。