3网页特定文本的抓取与统计的方法研究
3.1 网页抓取与统计概述
网页文本的抓取指的是,从网页中,去除无效字段,比如hlml标签等,并根据需要抓取出有用信息的过程。网页文本抓取最为简单直接的方法是针对特定的目标页面编写特定的分析系统。这种方法的主要方法如下:(1)获取目标网页。(2)分析目标页面,去除无效htmI标签。(3)根据有效信息在页面中的位置抓取目标文本。
网页抓取的文本的统计是指对通过抓取的信息进行一个解析、统计,随后呈现给用户。本设计采用的是,根据用户自己的喜好进行筛选,将选择的内容保存到以word的形式保存到本地。
实现网页抓取与统计的具体方法:
基于新浪门户。原理:新浪门户是包含了海量信息的信息平台,能提供大量的信息用做本课题的研究,利用新浪门户中新闻的搜索功能,就能得到大量的新闻摘要文本,为本课题的研究打下了重要的基础。
基于新闻搜索平台的检索结果的进一步统计:
(1) 统计源数据抓取,即主要通过与新闻搜索平台的交互,对新浪新闻搜索的文本摘要进行抓取,并对其进行分析。
(2) 显示新浪新闻搜索到的每条新闻摘要的基本信息,包括发布机构、时间等信息,利用了C#中DATAGRIDVIEW控件显示。
(3) 利用word接口的开发应用将分析好的最终结果保存到本地计算机。
(4) 分析统计关系动词,即当对每一段摘要分析时,找出相同或意思相近的关系动词,每次找出相同的关系动词,并给这些动词计数。当所有摘要文本都分析完,冒泡排序法对所有关系动词出现的频率排序。
(5) 利用TEXTBOX将分析排序好的最终结果显示出来。
本文的网页特定信息文本的抓取与统计的主要实现过程图:
图3.1 网页抓取与统计过程方法
3.2 网页分析
网页分析是本项研究的基础,通过对新浪新闻搜索结果页面的结构分析和获取就能获取研究的统计源,网页分析的过程如下:
图3.2 网页分析及获取过程
查看网页源代码:打开浏览器→点击右键→源文件
图3.3 查看源文件
分析网页结构:源文件的一般内容格式以新浪为例,就是对以下内容进行结构分析。利用对HTML语言的分析,找出该网页的基本结果和形式,即<HTML>是文件类型标记开始,<HEAD> 文件头开始,<TITLE>页面的标题标记,<BODY> 主题标记开始等,利用标记分析网页格式。
图3.4 源代码一般内容
使用C#编程实现获取新浪新闻页面的指定内容,并用工具箱中的datagridview控件显示获取的基本信息内容,即新浪新闻搜索中的摘要部分,包括新闻发布的机构、时间、具体内容等。
3.3 分析统计
分析统计是本次研究的最终任务,将新浪新闻摘要中提取的所有信息记录下来,并以一定的规律显示在表中。
调用分词系统,是本次研究的关键部分,要找出本次研究中所需要的相关词性,对这些大量文本中的每个字词作词性分析,也就是实现对这些新浪新闻摘要内容的分词过程。了解它们的具体词性后,我们就能找出那些所有可能相关的词。
冒泡法排序法对分词的统计结果进行排序。
3.4 调用分词
调用中科院的分词系统,是本次设计的一个关键,要找出本次研究中所需要的相关词性,必须对这些大量文本中的每个字词作词性分析,也就是实现对这些新浪新闻摘要内容的分词过程。了解了它们的具体词性后,我们就能找出那些所有可能相关的词。实施这部分功能的具体过程如下: 网络特定文本信息抓取及统计(9):http://www.youerw.com/jisuanji/lunwen_3461.html