摘要近几年来,随着信息技术的快速发展,人们通过Internet的方式采集和发布信息变得越来越普遍。因此,网络信息采集系统应运而生,它由计算机实时动态采集网上信息,并对所采集的信息进行审核处理。网络信息采集主要是指通过网页之间的链接关系,从网页上自动获取页面信息,并且存储到本地,进行编辑存入数据库中。
本毕业设计主要设计一个网络采集系统。系统通过建立网页资源库,结合采集技术、内容分析技术、引入用户数据项和采集内容编辑器,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动采集跟踪相关网站,进行比较、抽取、规整入库、分类等,从互联网上获取所需信息。6577
关键词 互联网信息采集 信息处理 .net
毕业设计说明书(论文)外文摘要
Title The development of Internet information collection procedures__
Abstract
In recent years, with the rapid development of IT, by way of the Internet to collect and publish information becoming more common. Therefore, the network information collection system came into being, it is collected by the computer real-time dynamic online information and the collection of information processed by the. Network information collection refers to the links between pages automatically get from the web page information, and stored locally, edit stored in a database.
This graduation design major design a network acquisition system. System through the establishment of the web resource library, and collection technology, and content analysis technology, the introduction of user data entry and gathering content editor, And custom visualization versatility strong Internet information collection system, can automatic track Web, filter information ,gather information ,extract information ,classify information and save to database termly. This paper introduces the design and implementation of the system in detail.
Keywords: Internet information collection Information processing .Net
1 引言1
1.1采集系统直观流程图 1
2技术背景2
2.1信息系统研究背景2
2.2 信息采集当前技术2
3系统设计5
3.1 设计目的5
3.2 基本实现原理5
3.3 系统流程及详细介绍7
3.3.1 建立网络资源库7
3.3.2 网站解析网页下载8
3.3.3 内容分析入库8
3.3.4 其他分析采集规则 9
3.3.5映射储存入库规则 9
3.3.6数据库的编辑过程 9
4系统总体实现 10
4.1登入模块的设计 10
4.2信息采集模块的设计 13
4.2.1新闻采集模块设计 13
4.2.2图片采集模块设计 17
4.2.3采集模块一些关键代码 20
4.3数据处理模块的设计 22
4.3.1历史记录 22
4.3.2数据查看 23
4.3.3数据文护 24
3.3.4数据库介绍 26
5系统调试测试 29
5.1测试目的 29
5.2测试方法 29
5.3系统具体调试29
5.4测试结果 31
结论 32
致谢 33
参考文献34
1 引言
信息多、有用少、分布杂乱无章、不断发展变化是互联网上信息资源特点,信息来源的异构性是网络信息难以采集整理再利用的焦点。近年来关于web信息利用研究很多,大多集中在搜索引擎技术,旨在利用先进系统和人工智能技术,以一定策略在互联网中搜集、发现、理解、组织信息后为用户提供网页、图片、软件等检索服务。
互联网信息采集系统是对Internet上某些或某类站点进行内容分析和分类整理,从网页中提取有效数据加工得到所需要的常常是该领域绝大部分资料,是新一代网络应用的方向,其不同于搜索引擎,纯智能化技术不能满足需要,不同于基于代理因特网信息获取的浏览器,他们下载的是页面,不能直接让用户抽取所需要数据项,不便自动实时监测源网站的更新信息等。