摘要:随着Internet的快速发展,互联网上产生了海量的信息,为人们提供了极其丰富的信息资源,但正是由于这种信息快速增长的情况,一个普通网页上的内容往往除了主题文本外,还有诸如图片、链接、广告等与主题文本无关的“噪音信息”,这些“噪音信息”通常会干扰人们获取该网页的主题内容。本毕业论文针对主题型网页,基于HTML标签窗实现网页正文的初步提取,利用正则表达式去除“噪音信息”,最后对提取内容进行标签去除,实现了网页正文的提取。为了进一步提高网页正文提取的精度,利用余弦算法计算提取出的网页正文与网页标题的相似度。测试结果表明该方法能够较好地实现网页正文的提取。20512
关键词:网页正文;HTML;相似度;信息提取.
Webpage Text Extraction Optimization based on the Correlation between Text and Title of a Webpage
Abstract: With the rapid development of the Internet, a large quantity of information has been generated on the Internet, which provides abundant information resources for us. However, a webpage is generally composed of some "noise information" besides useful information, such as pictures, hyperlinks, advertising and so on, which will disturb human to get useful information from the webpage. To solve this problem and extract useful text from a webpage efficiently, this paper first uses the HTML tag window technology to extract text from the webpage preliminarily, then uses Regular Expression to remove the “noise information” of the webpage, finally remove the HTML Tags. To further increase the precision of text extraction, the paper takes advantage of Cosine algorithm to calculate the similarity between the extracted and the title of the webpage. Test results show that the method can work well in text extracting from a webpage.
Keywords:    Webpage Text; HTML; Similarity; Information Extraction.
目   录
1    绪论    1
1.1    选题背景    1
1.2    研究意义    2
1.3    研究现状及存在的问题    2
1.4    论文研究的内容及结构    3
2    相关知识及技术    4
2.1    信息抽取    4
2.2    HTML    4
2.3    正则表达式    6
2.4    JAVA    8
3    网页正文提取方法    9
3.1    网页正文的定义    9
3.1.1    主题型网页    9
3.1.2    导航型网页    9
3.2    各类网页正文提取方法    10
3.2.1    基于HTML的网页正文提取方法    10
3.2.2    基于DOM树的网页正文提取方法    10
3.2.3    基于内容的网页正文提取方法    11
3.2.4    基于模版的网页正文提取方法    12
3.2.5    基于视觉的网页正文提取方法    12
3.2.6    基于数据挖掘/机器学习的网页正文提取方法    13
3.3    本章小结    13
4    网页正文提取优化方法    14
4.1    正文    14
4.2    精确标题    14
4.3    正文主题相似度的计算    14
4.3.1    文本相似度    14
4.3.2    正文主题相似度的计算方法    15
上一篇:iOS平台个⼈移动地图的设计与应⽤
下一篇:ASP.net企业客户信息管理系统CRM设计+文献综述

基于Apriori算法的电影推荐

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

公寓空调设计任务书

C#学校科研管理系统的设计

国内外图像分割技术研究现状

志愿者活动的调查问卷表

10万元能开儿童乐园吗,我...

承德市事业单位档案管理...

神经外科重症监护病房患...

医院财务风险因素分析及管理措施【2367字】

中国学术生态细节考察《...

AT89C52单片机的超声波测距...