话音活动检测是指将记录音频分为语音段和非语音段的过程。这种从噪声中区分主动语音的能力是许多音频应用的重要特征,例如语音识别,语音增强,语音合成和回声对消。随着人们生活水平的提高以及计算机网络的发展,人们更为迫切的寻求一种能够将双手从键盘中解放出来的信息传输与交换方式,在计算机以及人工智能设备的使用中,人们发现最为简便的方式是直接的语音对话。通过语音对机器进行操控,不仅减轻了人们的劳动负担而且还降低了劳动时的风险系数。为了更好地进行人机之间的信息交流,准确高效的语音处理技术显得尤为重要。经过科学家的不断努力,语音信号处理在语音的识别、增强、合成等方面都取得了重大的进步。但是这些技术在实际的应用中却遇到了许多问题,由于环境噪声、说话人自身因素以及信道传输等各方面的影响,语音信号处理性能急剧下降。因为在实际生活中,并不可能出现纯粹的语音信号,总会包含各种各样的噪声以及干扰,比如建筑工地施工时的声音,马路边汽车疾驰而过的声音,食堂广场喧嚣吵闹的声音等等,这些声音都包含在我们所说的话语之中,影响了对有用信息的接收。研究表明在通信系统中,传输信道中只有40%的时间用来传输语音,其他60%的时间都是静默音和干扰噪声,这就使得通信信道的使用率大大降低。由于话音活动检测的目的就是区分输入信号中的语音段和非语音段,如果能够在通信信道发射端加入话音活动检测器,将有用语音信息保留,滤除噪声干扰等无用信息,这样就可以极大提高通信信道利用率,保证信息接收效果,因此准确的话音活动检测是非常重要的。
1.2 话音活动检测发展现状及问题
1.3 本文主要工作和结构安排
本论文主要针对文献[10]提出的高阶累积量在LPC残留频谱的应用,从而能够进行话音活动检测这一研究,基于高阶累积量的累积特性提出了话音活动检测在子带和帧内判别标准,并且通过几组实测数据对这些判别标准的正确性进行验证。本论文中,我们主要进行了如下的工作:检索历年文献,了解话音活动检测基本原理和方法;设计数据采集方案,准备录制原始数据;数据采集,获取不同噪声环境下语音信号;原始数据分析与处理,分析数据是否正确,获得适合算法计算数据;算法仿真与评估,验证判别标准的正确性。
本论文的结构如下:第一部分绪论,介绍话音活动检测研究的背景意义、研究现状以及本论文研究内容;第二部分介绍的是话音活动检测的基本原理以及算法实现;第三部分是数据采集以及数据加工处理;第四部分是实验仿真与评估;第五部分是实验结论总结归纳。
2 话音活动检测原理
2.1 二阶与四阶累积量
累积量的定义[11]:累计量衡量任意随机变量偏离正态(高斯)分布的程度。
一阶矩指的是随机变量的平均值,即期望值,描述概率分布的中心;二阶矩指的是随机变量的方差,描述概率分布的离散程度;三阶矩指的是随机变量的偏度,描述概率分布的不对称程度;四阶矩指的是随机变量的峰度, 表征概率分布在平均值处峰值高低的特征数。直观看来,峰度反映了尾部的厚度。 基于双麦克风统计特性的话音活动检测研究(2):http://www.youerw.com/tongxin/lunwen_19813.html