(5)线件预测法:基本思想是由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或将来的样点值,即一个语言的抽样能够用过去若干个语言抽样或它们的线性组合来逼近。通过使实际语言的抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组系数,而这组预测系数就反映了语音信号的特征。
1.3 本文研究的内容、方法和意义
语音信号的频率域分析是一种重要的语音特征分析方法,本文采用了短时傅里叶变换的FFT算法,对语音信号进行时频域的变换,利用变换结果,绘制出能够反映出语音信号特征的频谱图和语谱图。
主要做的工作为:
(1)输入语音WAV格式文件,利用底层API函数对其进行读取等操作。
(2)绘制语音信号的波形图。
(3)对语音数据分帧加窗,进行FFT变换,绘制频谱图和语谱图。
(4)根据频谱图和语谱图分析语音信号的频率域特征。
语音特征分析是语音信号处理(语音识别、语音合成和语音压缩等)的基础,只有分析出可以表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成、语音识别等处理。语音合成的音质好坏,语音识别率的高低,都取决于对语音分析的准确性和精确性,故语音特征分析具有举足轻重的作用。
2 语音数据文件格式及语音波形绘制
2.1 语音WAV文件格式
WAV 文件是微软专门为Windows定义的文件格式,它是没有经过任何压缩的音频文件。WAV文件直接反映了声音在每个时刻的波形数据大小,它以一定的采样率采集声音波形数据并存储起来。
2.1.1 WAV文件格式
WAV文件是一种符合RIFF(Resource Interchange File Format)规范的声音文件,而RIFF是一种用于管理Windows环境中多媒体数据的文件格式。表 1和表 2 是wav文件的文件头格式和wav文件的数据块格式。文献综述
表 1 WAV文件的文件头
偏移地址 字节数 类型 内容
00H~03H 4 字符 资源交换文件标志(RIFF)
04H~07H 4 长整数 从下个地址开始到文件尾的总字节数
08H~0BH 4 字符 WAV文件标志(WAVE)
0CH~0FH 4 字符 波形格式标志(fmt)
10H~13H 4 整数 过滤字节(一般为00000010H)
14H~15H 2 整数 格式种类(值为1时,表示数据为线性PCM编码)
16H~17H 2 整数 通道数,单声道为1,双声道为2
18H~1BH 4 长整数 采样频率
1CH~1FH 4 长整数 波形数据传输速率(每秒平均字节数)