.net互联网信息采集程序的开发+文献综述(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

.net互联网信息采集程序的开发+文献综述(3)


采集系统的开发目的就是提供一个有力的工具,帮助普通用户(熟悉基本的HYML)而非编程人员从异构数据源手机信息,并转换为他所需要的信息。其功能包括网页采集、分析下载、直接入库、自动分类整理、内容定期编辑更新等功能。整个采集过程基于参数和配置管理控制,提供图形化界面编辑、向导式操作。系统将为最终用户提供一步到位的信息再整理过程,将浩瀚信息从无序化到有序化。可广泛用于情报采集、信息监控、行情跟踪、专业信息资源站、搜索引擎二次开发、内部知识系统或天气预报、股市、汇率、商情、动态新闻的实时采集更新等。设计考虑最大程度的通用性和易用性。
3.2  基本实现原理:
目前,互联网上各种网页均采用动态发布技术实现或采用末班制作,虽然Internet上的数据非常复杂,但对于具体的网站和网页,却是有结构有规律的。由于无论采集系统多么智能,网站页面和用户需求的映射关系都是采集系统程序不可能完全自动感知到的,但用户自己可以知道,因此系统程序实现的方法就是提供一个用户能够将需求告知采集系统程序的通道。
用户通过分析指定网站或指定的网站频道栏目下的网页元素。分析网页源HTML代码及网页间的相互关系,就可以发现其与所需要数据项的规律和对应关系。在剖析原有网站本身版面间元素的关系的基础上,就可以根据用户指令将这些元素之间关系转换为用户需要的数据,即能有效地利用网站制作人的智慧和用户的智慧,从数据挖掘整理的角度设计和开发一套通用互联网信息采集系统。
用户需告诉采集系统要在什么时候从什么地方队满足那些条件的内容经过哪些步骤,然后采集出什么元素,并把该元素放置到数据库哪一部分等,系统设计是主要为以上所有内容根据不同扫描频率作为配置文件按一套自定义接口描述标准对用户开放。
3.3  系统流程及详细介绍
信息采集过程是从异构数据源收集信息并转换为用户需要的信息的过程。以分析某个网站发布的需求信息或新闻动态为例,我们可能是用的方法是:
实际工作流程    采集系统工作流程    说明
下载更新    建立下载用户文件目录    建立或指定网页资源库    后者某类工程对应一个资源库
    下周网页/图片到本地    解析保存到网页资源库    后者更能有效地筛选范围,解析特殊链接
编程进行分析规整入库    分析网页内规律    分析网页内规律    用户干预,用户浏览网站, 查看分析网页源HTML
    定义数据项、与表结构对应    定义或加载数据项申明文件    某类处理对应一申明文件
    扫描下载到本地目录    扫描下载到本地目录扫描网页资源库    后者可视化定义筛选范围
    对每个文件进行替换或抽取分析处理    通过替换抽取过程编辑器定义处理指令后系统解释执行    后者可加载模板,可视化操作,无需用户编程
    对图片附件分析处理    定义其他信息采集规则    可视化配置后自动完成
    将分析后信息整理和入库    根据数据项与数据库的映射、查重规则等自动处理    
调试程序    下载、取样、文件操作、内容分析,反复调试,清空或还原测试数据等    直接从互联网上拖入网址即能可视化测试、预览、排版和入库    前者极不方便,后者灵活 (责任编辑:qin)