C#文本朗读与语音识别软件开发与设计(2)
时间:2017-06-21 22:43 来源:毕业论文 作者:毕业论文 点击:次
表1-1 文本朗读方法比较5 表3-1 WPF中的控制面板类16 1 引言 自人类发明计算机以来,人们就一直为着这样一个理想在奋斗:让计算机听懂人类语言并且让计算机能像人一样说话,一言以蔽之,实现计算机和人的交流。但是这么多年来,尽管科学技术发展日新月异,时至今日人们依然依赖鼠标,键盘这些辅助的外部设备。在这种背景下,文本朗读(text-to-speech)和语音识别技术越来越受到人们的垂青和追逐。 通过语音识别技术,计算机可以听懂人们的命令从而代替外设实现一些操作。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 通过文本朗读技术,计算机可以模拟人说话,使人机交互更为友好方便。文本朗读技术也成为语音合成技术。它是信息处理领域的一个重要分支, 实现计算机文本文件语音合成, 就是让计算机开口说话, 这也是人工智一个重要研究方向。语音合成是一门跨学科的技术, 涉及自然语言理解、语音学、信号处理、心理学、声学等。TTS技术(Text To Speech) 是当前语音合成技术的代表性研究内容,它的主要问题是如何将文本状态的文字信息转化为可听的声息。这一技术在人机对话、电话咨询、自动播音、助讲助读、教学等方面有着广阔的应用前景。 虽然现在语音的技术已经比较发达,但是仍然有发掘的潜力,比如在识别率上,可以再提高,或者说多语言混读方面,我相信在不久的将来,语音技术将普及人们的生活,走进普通百姓的家里。 1.1 语音识别与文本朗读简介 语音技术的概念实际包括两个技术:合成器和识别器。语音合成器将文本作为输入,并产生音频流作为输出。语音合成也称为“文本到语音”(text-to-speech,TTS)。另一方面,语音识别器的行为刚好相反。它将音频流作为输入,并将其转换为文本副本。 1.1.1 语音识别技术 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别系统本质上是一种模式识别系统.包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如图所示: 图1-1 语音识别基本结构 未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果[1]。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 语音识别分为训练阶段和识别阶段:第一步是系统”训练”阶段,任务是建立识别基本单元的声学模型。第二步是”识别”阶段。根据识别系统的类型选择能够满足要求的识别方法,采用语音分析方法分析出这种方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果[2]。 语音识别甚至比语音合成更复杂。然而,和语音合成一样,也可以认为其具有一个前端和一个后端。前端处理音频流,从而分隔可能发声的声音片段,并将它们转换成一系列能够在信号中表示元音的数值。后端是一个专用的搜索引擎,它获取前端产生的输出并跨以下三个数据库进行搜索:一个发音模型、一个词典和一个语言模型。发音模型表示一种语言的发音声音,可通过训练来识别某个特定用户的语音模式和发音环境的特征。词典列出该语言的大量单词,以及关于每个单词如何发音的信息。语言模型表示一种语言的单词如何合并。 (责任编辑:qin) |