23
3.5 本章小结 24
4 基于边缘检测的由粗到细的文本定位方法 24
4.1 文字定位流程 24
4.2文字区域粗检 25
4.3 文本区域优化 26
4.4 代码数据结构和函数功能介绍 27
4.4.1 主要数据结构 27
4.4.2 主要函数和功能 29
4.5 实验结果 30
结 论 33
致 谢 34
参考文献 35
1 绪论
1.1 概述
在本文中,提议采用一种既新颖又普遍的基于边缘信息的文字定位方法。本文方法采用了一种由粗到细的文字定位方法。首先,对包含文字的图像提取边缘信息,其次,利用边缘图中的边缘点的分布特点粗略的定位包含文字的区域。最后,将边缘点在水平和垂直两个方向上进行投影,利用投影的结果进一步细化的文字定位的区域。实验采用了一些新闻视频中的图像帧作为测试数据,实验结果表示我们的方法在各种条件下都是比较准确和可靠的。
1.2 文字提取的研究背景
改革开放以来,随着中国科技和现代化的大力发展,计算机越来越普及,数字图像的容量以惊人的速度增长。各个企业和单位都会产生海量的图像和视频信息。光每日的新闻视频就产生很多。在这些海量的图像和视频文件中很多都包含了大量有用的信息。尽管现代科技很发达,但是目前计算机视觉和人工智能技术仍无法自动对图像进行自动标注来进行管理,很多时候都需要依赖人工对图像做出标注。但是这样不仅费时费力,效率极低,而且精准度也不是很高,不可避免的会产生主观偏差。在许多信息模型中,图像文本信息是一个重要的途径,因为相比较于视觉和听觉,它包含了更大量的高层语义信息。另外,光学字符阅读器(OCR)软件已经足够成熟,比自动语音识别和视觉分析技术更具有鲁棒性。
图像和视频中所包含的文字是非常重要的信息内容,对检索、浏览图像视频文件管理等功能的实现具有十分重要的作用。图像和视频里的文字可以作为图像视频文件的内容标识和索引来用于检索,比如在新闻视频中出现的标题、摘要或者说明性文字,可以作为该段新闻视频内容的描述,用于新闻视频资料的检索。如今,我们被各种像互联网和电视等各种媒体所淹没,如何有序的组织和管理这些多元化数据,以便建立索引来查询成为当前迫切需要解决的问题。这是因为文字可以作为视频和图像内容的判断依据,比如对于视频帧和图像中出现的醒目文字,可以将其抽取出来用来描述或者代表该视频帧或图像,所得到的文字可以更容易的被检索和管理。所以,如果能有把图像和视频中的文字自动检测,分割和识别出来的话,对图像和视频的高层语义的自动理解、索引、检索和管理具有非常深远的意思。因此图像和视频中文字提取和识别是信息自能化的前沿课题,是国际上热门研究的问题。为此现在已经有许多学者开始来研究解决这个问题。
1.3 文字定位的研究现状源]自=优尔^`论\文"网·www.youerw.com/
1.4 文字定位的具体应用
文字识别研究意义深远,可以应用于很多领域。例如: 基于边缘信息的图像文字定位(2):http://www.youerw.com/jisuanji/lunwen_65513.html