1.2 研究意义
面对互联网海量的信息资源,在网页上检索及发现有价值的信息已成为一项重要的任务,人们迫切需要一个高效的信息提取方式以便在网页中快速得到我们所需要的信息。在网页中除了跟主题相关的网页文本内容外,还有一些无关的导航条链接、广告链接、版权信息等“噪音内容”,有效地清除网页“噪音内容”,并提取网页主题相关的正文内容,是提高提取网页主题相关正文精准率的一项关键性技术。
信息的爆炸性增长使得其内容的存在与表现形式日益多样化,今天的信息已经不仅仅局限于文本,而越来越多的是文本、多媒体和元数据的混合。因此,如何快速有效地利用这些信息,已经成为学术界越来越关注的问题。就目前来说,对于大部分人还无法判断网络上究竟有多少信息与自己的需求有关,这也从客观上增大了在网页上进行有效信息提取的难度。当前,基于主题相关性的网页正文提取方法优化研究是国际信息检索领域的热点和前沿问题,其研究将有助于提高信息检索的精准率,以便人们快速从网页上得到自己所需要的信息。
1.3 研究现状及存在的问题
1.4 论文研究的内容及结构
本设计采用了正则表达式;设计并实现了网页文本提取的基本功能。全文共分为优尔个章节:
第一章绪论。主要阐述了本课题的选题背景、研究意义、国内外的研究现状,以及论文研究内容和组织的结构。把网页文本内容提取的问题在如今社会的发展现状做了详细的介绍,并阐明了选此课题的背景、意义;
第二章相关技术。本章节首先介绍了相关的知识,其次介绍了相关的技术,并利用这些技术实现了网页文本提取系统;
第三章对网页正文的定义进行了描述,并对现有的网页文本提取方法进行研究。主要研究了各类网页文本提取算法实现过程和其优缺点;
第四章对网页文本提取进行优化,利用文本相似度的计算来解决提取内容与标题的相关性问题;
第五章利用正则表达式基本实现了网页文本提取系统的设计;
第优尔章对本次设计,内容等进行了总结、分析与展望。对此次毕业设计的感想、心得体会做了一番总结,以及对在设计过程中,遇到的问题等做了详细的说明。并对该系统的未来展望做了一个描述。
2 相关知识及技术
2.1 信息抽取
信息抽取 (Information Extraction: IE)其主要工作是把文本信息进行结构化处理,变成像表格一样的形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要目的。信息以统一的形式集成在一起的好处是方便查询和比较。 信息抽取技术只是对文档中包含相关信息的部分进行分析。
2.2 HTML
2.2.1 HTML简介
在万文网上的一个超媒体文档称之为一个页面(外语:page)。作为一个组织或者个人在万文网上放置开始点的页面称为主页(外语:Homepage)或首页,主页中通常包括有指向其他相关页面或其他节点的指针(超级链接),所谓超级链接,就是一种统一资源定位器(Uniform Resource Locator,外语缩写:URL)指针,通过激活(点击)它,可使浏览器方便地获取新的网页。这是它近几年越来越流行的重要原因之一,在逻辑上我们可以将视为一个整体的一系列页面的有机集合称为网站(Website或Site)。超级文本标记语言(英文缩写:HTML)是为“网页创建和其它可在网页浏览器中看到的信息”设计的一种标记语言。网页的本质就是超级文本标记语言,通过结合使用其他的Web技术(如:脚本语言、公共网关接口、组件等),可以创造出功能强大的网页。超级文本标记语言之所以称为超文本标记语言,是因为文本中包含了所谓“超级链接”点。 基于主题相关性的网页正文提取方法优化研究(3):http://www.youerw.com/jisuanji/lunwen_12316.html