混响时间盲估计的发展研究现状

在20世纪初，萨宾[1]提供了一个经验公式用来预测房间内的RT60。萨宾的公式说明了RT60仅仅由环境的几何形状和表面材料而决定。施罗德提出了一种直接使用相关的房间脉冲响应（RIR）的后向积分方法[4]去计算衰减曲线的统计平均值。但是，在许多情况下，这个信息并不可以直接得到，因此，混响时间不得不从一个记录的信号中进行盲估计。在目前的盲估计方式中，一般会分为两大类。根据Polack的时域上的RIR模型[6]，其中一类是通过估计信号功率谱的包络的衰减速率的在时间上的分布同时画出它的谱图，或者通过一个固定的或者是已知的谱图得到RT60的其他数据[5,9-14]。另外一类的方法中，主要是依赖于复倒谱特征的变形的量化或者是根据混响的调制特征来进行混响时间的盲估计[15,16]，调制频谱表示法是为了混响和消混响声音的无扰质量和清晰度的测量。在其他估计混响时间的方法中，也有通过分析声音衰减曲线的衰减速率测量RT60。衰减曲线可以由一个激励信号在室内到达稳态声级后关掉观察并得到。这种方法也被称为中断的噪声方法（ISO3382）[3]。半盲估计的方法也已经被提出来，利用神经网络的方法得到房间的特性。另一种方法是通过将语音分段之后，接着检测声音的间隙，使得可以允许声音衰减曲线被进行跟踪。在进行混响研究的时候，一个重要的工具就是要从单独的麦克风信号中去估计混响的特性，论文网就像这种被提出的方法[5]，Ratnam提出了一个真正地进行混响时间盲估计的最大似然估计方法。该估计可以被连续地获得，并且通过一个有序统计滤波器被用来从累积的估计中提取最有可能的混响时间。但是，为了能够有效地提取出混响时间，这种方法在语音发声时需要一段长时间的停顿时间。25845
在这些所有的估计方法中都明确地或者不明确地假设了混响在输入信号中占据了主要地位，或者说，混响声能比（Direct to Reverberation Ratio，DRR）小于0dB。事实上，当直达声占据主导地位时，所得到的衰减速率和特征都会表现出从纯净信号中很小的分离。但是，这个假设在相对较小的房间和声源较远时的应用能力表现并不好。例如，在一个会议室房间大小为30 m3且其RT60为300ms的时候，上面所述的DRR小于0dB的临界距离（临界距离是指在这个距离的时候直达声的能量与经过前期、后期反射到达的信号的能量相等时候的距离，也可以说是混响声能比等于0dB时候的距离是临界距离）是57cm。因此，稍微大一点的混响声能比对于源分离和自动语音识别功能是不利的。因此基于房间大小和源距离的混响时间的鲁棒性分析是必要的。混响时间盲估计的发展研究现状:http://www.youerw.com/yanjiu/lunwen_19812.html