钢琴多琴键合音信号的分离与识别方法研究_毕业论文

毕业论文移动版

毕业论文 > 数学论文 >

钢琴多琴键合音信号的分离与识别方法研究

摘要钢琴作品均由不同琴键按一定规则发声的组成,通过拾音麦克风音频信号采集,基于声音的音调、响度和音色 3 种基本物理特征对声音进行识别,应可识别出琴声与琴键之间的对应。然而完整的钢琴作品中常常含有许多的多琴键的合音部分,对于此类声信号相应的琴键的识别首先必须准确进行各琴键信号的分离。 乐音信号分析的工作必须先于其他的信号处理工作。根据不同的分析参数,乐音信号分析可分为时域,频域,倒谱域等方法。由于乐音信号是一个非平稳的过程,应用短时傅里叶变换(STFT)对语音信号的频谱进行分析。而在乐音识别中,常用基于 Mel 频率的倒谱系数(MFCC)作为特征参数。 目前比较流行的乐音分离的算法有非负矩阵分解(NMF)和独立成分分析(ICA)等。而主要的乐音识别的方法有矢量化技术(VQ)和隐马尔科夫模型(HMM)等。通过 Matlab数值实验,对这些方法进行研究和比较。31399
毕业论文关键词  乐音分离 乐音识别 特征提取 STFT MFCC NMF ICA VQ HMM
Title  Research of Signal Separation and Recognition of Piano Keyboards’Sound Signal
Abstract A piano composition is made of different piano keys on the basis of certain rules of sound production, via collection of signal by microphone, recognize the sound based on three  basic  physical features of tone,loudness and timbre. The correspondence between sound and piano keys should be recognized. However, a complete piano composition often consists of multiple piano keys played one time. It has firstly to precisely separate the piano keys’ sound signal so as to recognize this type of sound signals of the corresponding piano keys. The analysis of signal must prior to other processes that deal with  signal. According to the  different parameters from the analysis, there are several approaches of the acoustical signal analysis, such as the time  domain, the frequency domain and the cepstrum domain. Because of the non-stable process of the acoustical signal, The Short-time Fourier Transform (STFT) should be implemented to  analyze  the frequency  spectrum  of the sound signal.  In the process of recognition of the sound, Mel-frequency cepstral coefficients (MFCC) can be used as a feature parameter. Currently, some popular algorithms of acoustical signal separation include Non-negative Matrix Factorization (NMF) and Independent Component Analysis (ICA). And the main algorithms of acoustical signal recognition are Vector Quantization (VQ) and Hidden Markov Model (HMM). The  analysis and  comparison  of these algorithms are through the experiment using Matlab. 
Keywords    sound signal  separation  sound signal recognition  feature extraction          STFT  MFCC  NMF  ICA  VQ  HMM
目次
1引言..1
1.1研究的背景及意义..1
1.2技术的发展与现状..1
1.3论文的内容及安排..2
2乐理知识及程序结构.....4
2.1钢琴的发声原理..4
2.2钢琴的音乐特性..4
2.3乐音分离与识别的总体结构......7
3乐音的时频分析及特征提取..8
3.1乐音的数字化与预处理..8
3.2乐音的时域分析..9
3.3乐音的频谱分析12
3.4乐音的特征提取13
4乐音的分离算法15
4.1多通道乐音信号的分离15
4.2单通道乐音信号的分离17
5乐音的识别算法20
5.1矢量量化技术(VQ).....20
5.2隐马尔科夫模型(HMM)..22
6实验与结果26
6.1乐音分离的实验26
6.2乐音识别的使用32
6.3几种算法的比较38
结论39
致谢40
参考文献41
1  引言 1.1  研究的背景及意义 音乐是人类智慧与感性思文的体现,也是人类表达感情的特殊手段,许多无法用语言表述的感情可以经由音乐来表达。近年来,随着个人电脑的普及以及互联网技术的发展,音乐在互联网应用中的地位变得举足轻重。各种音乐能以不同的音频格式在计算机上播放。随着数字化技术和信号处理技术的发展,对以数字信号形式表现的音乐信号的处理也变得热门起来。 无数的音乐作品都由钢琴演奏出来,被当作经典传承下来。对钢琴音符的准确识别能有效的检测一首曲子是否被正确的演奏。然而完整的钢琴作品中常常含有许多的多琴键合音部分。由于听觉掩饰效应或周围环境的干扰,人们可能无法对音符的组成得出正确的判断。对于此类声音信号相应的识别首先必须准确进行各琴键信号的分离。 通过对钢琴的发声原理与音乐特性分析,再结合与乐音分离与识别息息相关的信号处理技术,我们对乐音信号分离与识别算法进行了较为深入的研究。 1.2  技术的发展与现状     乐音的分离与混合信号的分离有着密不可分的关系。近年来,信号分离技术的迅速发展推动了乐音分离技术的发展。不同领域的专家学者们就这一技术提出了各种方法,目前主要的乐音分离的方法有:基于计算机听觉场景分析[1]、模式识别技术、频谱滤波技术[2]、独立子空间分析、独立成分分析、非负矩阵分解等算法。     但是当前存在的一些乐音信号分离技术也有一定的不足。比如欠定盲源分离是信号分离中一个较难解决的问题,即接收到的信号的个数小于源信号数目,而只有一个观测信号的是欠定盲源分离中的特例,称为单通道源分离。而一些分离算法如独立成分分析,适用于观测信号数目不小于源信号数目时的情况。但在实际应用中,通常由单个麦克风完成音频录制。因此传统的分离算法已不再适用于解决单通道分离问题。而非负矩阵分解的方法适用于单通道信号的分离,尽管对其的研究已经取得了一定的成果,但仍处于起始阶段,比如非负矩阵的初始化问题,初始值的设定往往对收敛速度甚至收敛结果都有较大的影响,目前尚未有一套成熟的理论来对初始值加以确定和衡量。并且大多数非负矩阵的算法收敛都比较慢,即使是同一种算法,分解结果也易受到初值设定不同等因素的影响,造成分解结果不同[3]。 乐音识别的研究范围十分广泛。其中低层次特征分别包括单音检测,旋律提取和多音估计以及音符起点、终点、时长、振幅等节奏特征。高层次特征则包括音乐的调式、风格、情绪等[4]。20世纪70年代左右,乐音的识别技术有了初步的发展,识别的对象从最初的音符识别开始。随后的 80 年代和 90 年代,基础理论研究得到进一步深化和发展,识别的内容由单一的音符识别转变为对乐曲的调试和节拍的识别。识别技术也趋于多样化,出现了小波分析和计算模型以及神经网络和模糊系统。同时识别性能得到显著提高。乐音识别的高潮出现在21 世纪,贝叶斯网络和随机模型成为领先技术[5]。目前主流的乐音识别算法有动态时间规整算法(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)等。  (责任编辑:qin)