.net互联网信息采集程序的开发+文献综述(4)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

.net互联网信息采集程序的开发+文献综述(4)


定期跟踪    手工重新执行以上过程/程序,需设法手工排重    重新解析和增量下载(起点控制、地址排重、断续扫描)    后者可自动跟踪
.3.1  建立网络资源库
用于跟踪采集用的原网页信息,记录项包括网页地址(URL)、网页标题(为原链接文字或网页中标题部分)、网页源文件、链接从何解析得到、源文件下周时间、分析入库状态等。
支持对每个工程(我们定义对某个网站的信息采集处理称为一个工程)建立一个资源库或某类工程建立一个资源库或所有工程公用一个资源库。提供保存或不保存网页源文件的两种方式。网页源文件只包括纯文本的HTML,不保存图片等多媒体信息,可做定期清理文护。
3.3.2  网站解析和网页下载
对目标网页或网站进行解析,获取网页源文件,并进一步分析超链接递归扫描和将制定范围内有效信息保存到网页资源库。做到能可视化配置扫描范围、附加筛选、过滤条件、更深层次等。并支持手工进行解析筛选保存下周页面。
3.3.3  内容分析入库
运用了HTML分析技术,剥离出用户所需要信息的过程,如标题、正文、作者等,包括对用户定义数据项声明文件加载、内容替换抽取脚本的解释执行、入库与数据整理,主要依靠一些自定义脚本过程语言支持实现。
(1)    数据项定义
声明文件用于告知分析引擎将要处理的工作,如新闻类信息采集的数据项常为新闻标题、新闻内容、新闻时间、新闻作者、新闻来源、新闻关键词、原网页上的当前位置项。项目需求类信息采集的数据项可为项目名称、项目联系人、应用行业、联系电话等。
版权保护:采集系统知识方便编辑人员的工具,版权问题由用户自行负责。
(2)    数据项存储与数据库映射
XML格式存储:系统缺省按定义的数据项以SML格式存储,便于信息的利用和转换。
数据库映射:系统支持和推荐用户将信息一步到位的直接入库,如新闻信息类采集可直接保存到新闻表、图片附件表等。用户最终数据项的存储有互用在数据项定义文件中映射定义,表结构构由用户显性构造好,存储格式无论是存在SQL Servrr中,还是Access库中(本系统使用的Access),只要支持标准SQL即可。此时还可以设置合法性校验规则、查重设置等等功能实现。
分析引擎中声明文件为数据分析前的预先定义和初始化操作,只有加载后才能进行随后的过程语言定义和编辑,进行数据项与数据库的映射直接入库等。各数据项在分析引擎中变化处理时均作为字符串处理,不同类型的字段通过与数据库的映射来实现。
分析引擎中声明文件的映入,使用信息采集系统具有最大的灵活性。实际工作中,每个人此类定义的变化不一定很多,但只有它使得信息采集分析系统的通用性和使用性成为可能。
3.3.4  其他分析采集规则
规则加载方式:设定缺省下载采集配置,当调用中若有某项特别指定,以指定为准,否则继承此处设置。
脚本有效范围:指定内容分析过程所针对网页范围,一般为指定网站或网址目录内尚未处理(即监控程序新扫描到的)记录。
图片附件处理:指定当采集后某数据项中含有其他文件标记时是否处理和处理方法,如新闻内容中含有< img src = ⋯>信息或产品介绍中< ember ⋯>等时,是否进一步分析下载其他格式文件,如图片、Flash、音频、视频文件等‘若指定了虚保留下载的文件类型,各类型的文件的物理存放目录、数据库素材表字段的映射关系,系统可自动分析、采集、重命名和进行分类存储,并保持数据之间的逻辑关系。 (责任编辑:qin)