基于音频特征的场景检测算法设计与实现(2)

4.1.2    基于片段的特征分析    11
4.2音频分类方法    12
4.2.1 独立场景识别技术    12
4.2.2 连续场景分析技术    13
5 音频分类原型系统的设计与实现    15
5.1    Visual C++平台及MFC简介    15
5.2    音频波形表示    15
5.3    系统实现    16
5.3.1    系统功能设计    16
5.3.2    系统程序设计    17
5.4    实验结果及分析    20
结论    22
致谢    23
参考文献24

1 引言
1.1    研究问题的提出
随着多媒体技术的快速发展，图像，视频，音频等多媒体数据已经逐渐成为信息处理领域里的主要的信息媒体形式。音频媒体和视频是信息媒体中最常见也是最重要的两种媒体，大容量高速存储系统，尤其是近年来蓬勃发展的大数据，使得现今数据的存储问题不再是阻碍信息技术发展的瓶颈。如何有效地利用这些海量的音频信息成为当前信息处理领域中的一个重要课题。而电子计算和人工智能技术的广泛应用，用数字化的方式来处理音频信号，目前来看是相当长一段时间的主流。
音频处理技术结合了数字信号处理技术和声学技术，它又和认知科学、心理学、计算机科学、模式识别和人工智能等学科联系紧密。目前的多媒体数据库或文件系统中包含有大量的音频数据，人类在漫长的发展过程中，可以通过自己的经验来区分不同音频是属于哪种分类，而面对现今的海量数据，光靠人工的方法远远不能解决问题，于是人们希望通过利用现代化的手段，让计算机具有对音频进行分类、场景识别等功能[1]。
在计算机中，音频文件以二进制比特流的形式进行存储，除了量化精度、采样率、编码方法等注册信息外，并不具有满足人们要求的原始描述和结构化的组织，并且相互之间关联度大、数据结构复杂等特性，给音频信息分类提供了很大的困难，并使得音频信息的进一步处理如音频检索等技术的发展受到限制。如何将无意义的原始数据进行分类为符合人类感知特征的数据是音频深度处理的基础，而基于音频特征的场景检测算法设计与实现正是解决这一问题的关键。

1.2 音频分类和场景分析技术的发展现状
近年来，音频分类和场景分析技术发展迅速，国内外研究人员都取得了一些突破。音频信息分类和场景分析技术的研究大致可分为如下几类：
(1)    直接对音频信息进行的分类
在音频分类中一个基本问题就是如何分开语音和音乐两类音频数据，有很多的研究人员对此进行了研究。因为语音和音乐的频谱特征有很大差异，具体表现在：伴随时间变化的方式不同，所以我们可使用平均过零率和能量这两个特征，通过与设置的阈值进行比较来区分它们；另有一些研究人员则研究除了语音和音乐这两种类别之外更精确的分类，他们通过分析音频信号的幅值、频谱等参数来达到分类目的。
(2)    为视频分类而作的音频分析
利用能量、基频、频谱系数、暂停率等特征，用一系列的阈值进行分类。可以将视频分成具体的类别，如新闻节目、天气预报、篮球比赛、足球比赛和广告等。
(3)    针对音频检索而进行的音频分类
音频检索中通常需要先建立索引结构，之后按索引进行检索。对音频进行分类有利于更好地构建索引。美国Musle Fish公司的E.Wold等人的研究方向着重于对音频片段的整体分析，对每个时间片计算基音频率、振幅、音色和带宽等四个特征，并运用高斯模型进行分类与检索。Foote选取Mel频率倒谱系数作为分类的特征，采用一种有监督的互信息最大化的树形结构矢量量化器将特征空间划分为不同的区间，并为训练样本和测试样本分别建立直方图特征模板，对音频信号进行分类与检索处理。Stan Z.Li提出了基于特征线的分类与检索方法。Tong Zhang则采用能量过零率、短时基频变化曲线等特征将音频分为语音类、音乐类、环境音类和静音，然后采用隐马尔可夫模型再将环境音分为掌声、鸟叫声、脚步声、语声等10个类别[2]。基于音频特征的场景检测算法设计与实现(2):http://www.youerw.com/zidonghua/lunwen_12853.html