MIDI哼唱检索算法研究+文献综述(4)
时间:2017-06-25 19:27 来源:毕业论文 作者:毕业论文 点击:次
D基于音乐节奏的表示方法 利用节奏表示音乐内容的方法忽略了音乐的音调特性,利用音乐的节奏表示 音乐的内容,较基于音乐轮廓的内容表示要复杂,虽然如此,仍丢失了很多的音乐信息,因为它忽略了音乐的音调特性。 2)基于音乐旋律轮廓(音调高低)的表示方法: 利用三个字符S-same、U-up、D.down,来表示音乐的旋律轮廓。音乐 音调轮廓描述了相对音调的变化,忽略了音乐的节奏信息,也忽略了音调的精确变 化。一段旋律中的字符表示当前音符与其前面的音符的比较,S表示音调的重复, U表示比其前面音符的音调高,D表示比其前面音符的音调低。歌曲“同桌的你"节选可表示为SSSSDUUUDSSSDUD。旋律的音调轮廓同样会丢失音乐信息。这样虽然可以减少搜索空间,但同时也使搜索变得不精确,对于一个大型数据库来说查找的结果过多,不利于找到要搜索的目标。为了找到目标歌曲,需要较长的输入串,这会与用户对歌曲的记忆的长度相矛盾。 3)基于音高差和音长比的表示方法: 在基于哼唱的音乐检索系统中,音符分割是难点,如果能很好的将用户哼唱的 声音信号中的音符分割出来,就能够提取每个音符的音高值,转换成半音单位。再根据音符的音高值,计算出两个相邻音符的音高差。因为每个人哼唱时音高不同,我们可以用音高平移的方法,将哼唱声音信号的音高,平移到比对资料相同的音高。这样可以提高检索的查准率。 其次,有了比较准确的端点检测的结果后,我们就可以得到每个音符的音长数 据,根据音长数据,我们可以计算出两相邻音符的音长比,作为我们旋律信息的一部分。 2.3几种常见的音频数据音乐格式 2.3.1WAV WAV是Microsoft windows本身提供的音频格式,由于Windows本身的影响力,这个格式已经成为了事实上的通用音频格式。WAV是一种符合RIFF(Resoume功terchangeFileFOrmat)规范的文件格式。通常我们使用WAV格式都是用来保存一些没有压缩的音频,但实际上WAV格式的设计是非常灵活(非常复杂)的,该格式本身与任何媒体数据都不冲突,换句话说,只要有软件支持,你甚至可以在WAV格式里面存放图像。之所以能这样,是因为WAV文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据。在WIN DOWS平台上通过ACM(AudiocompressionManager)结构及相应的驱动程序(通常称为coDEc,编码/码器),可以在WAV文件中存放超过加种的压缩格式,比如ADPCM、GSM、CcrTQ71卜G723等等,当然也包括Mp3格式。虽然WAV文件可以存放压缩音频甚至MP3,但它本身的结构注定了它的用途是存放音频数据并用作进一步的处理,而不是像MP3那样用于聆听。目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。这些软件包括:sound Forge、cool EditPro、waveLab等等。在windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美回放,由于本身可以达到较高的音质的要求,因此可以认为是无损的。由于WAV的支持实在是太广泛了,可以说,即使Windows退出历史舞台,WAV格式也不会消亡。 2.3.2 MP3 MP3是1993年德国FraunhoferllS研究院和法国Thommultimedia公司的合作研究成果。它是MpEG(MovingPicture Expters Group)Audio Layer-3的简称,是MpEGI的衍生编码方案。Mp3是第一个实用的有损音频压缩编码。在MP3出现之前,一般的音频编码即使以有损方式进行压缩,能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例,这使得MP3迅速地流行起来。MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了人耳听觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地文持原来的声音质量。衡量Mp3文件的压缩比例通常使用比特率来表示.这个术语的英文是bPs( bit Persecond),表示每1秒钟的音频可以用多少个二进制比特数来表示。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。由于比特率的选择与文件大小、音质直接相关,后来又出现了vBR(Variant Bit Rate,可变比特率)方式编码的MP3,这种编码方式的特点是可以根据编码的内容动态地选择合适的比特率,因此编码的结果在保证了音质的同时又照顾了文件的大小,因此大受欢迎。有意思的是,其实Mp3的编码标准本来就支持这种压缩方式,但是第一个将此功能实现的反而是一个第三方工具:曾经非常有名的Xing Technofogy公司推出的Xing Encoder。由于Mp3是世界上第一个有损压缩的编码方案,所以可以说所有的播放软件都支持它,音乐厂商也开发了众多支持MP3的硬件播放器,如MPMAN、DiscMan、CDIVCD/DVD机等等。在制作方面,也曾经产生了许多第三方的编码工具。不过随着后来Fraunhofer IIS宣布对编码器征收版税之后很多都消失了。目前属于开放源代码并且免费的编码器是LAME(LameAin、Mp3Encoder)。这个工具是公认的压缩音质最好的MP3压缩工具。另外几乎所有的音频编辑工具都支持打开和保存MP3文件。应该说到了现在,MP3在音频压缩方面的优越性已经收到越来越大的挑战,许多新一代的编码技术都已经能在相同的比特率下提供比MP3优越得多的音质。特别是音乐发烧友对MP3的音质更是嗤之以鼻.不过由于MP3的影响力实在是太大了,支持MP3的软件多如牛毛,更别提众多支持MP3的硬件播放器,所以MP3仍然是目前世界上最为流行、最为普及的音频有损压缩格式。 (责任编辑:qin) |