摘要近几年来,随着信息技术的快速发展,人们通过Internet的方式采集和发布信息变得越来越普遍。因此,网络信息采集系统应运而生,它由计算机实时动态采集网上信息,并对所采集的信息进行审核处理。网络信息采集主要是指通过网页之间的链接关系,从网页上自动获取页面信息,并且存储到本地,进行编辑存入数据库中。
本毕业设计主要设计一个网络采集系统。系统通过建立网页资源库,结合采集技术、内容分析技术、引入用户数据项和采集内容编辑器,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动采集跟踪相关网站,进行比较、抽取、规整入库、分类等,从互联网上获取所需信息。6577
关键词  互联网信息采集  信息处理  .net
毕业设计说明书(论文)外文摘要
Title        The development of   Internet information collection procedures__
Abstract
In recent years, with the rapid development of IT, by way of the Internet to collect and publish information becoming more common. Therefore, the network information collection system came into being, it is collected by the computer real-time dynamic online information and the collection of information processed by the. Network information collection refers to the links between pages automatically get from the web page information, and stored locally, edit stored in a database.
This graduation design major design a network acquisition system. System through the establishment of the web resource library, and collection technology, and content analysis technology, the introduction of user data entry and gathering content editor, And custom visualization versatility strong Internet information collection system, can automatic track Web, filter information ,gather information ,extract information ,classify information and save to database termly. This paper introduces the design and implementation of the system in detail.
Keywords:  Internet information collection    Information processing    .Net
1    引言1
1.1采集系统直观流程图 1
2技术背景2
2.1信息系统研究背景2
2.2 信息采集当前技术2
3系统设计5
3.1 设计目的5
3.2 基本实现原理5
3.3 系统流程及详细介绍7
3.3.1 建立网络资源库7
3.3.2 网站解析网页下载8
3.3.3 内容分析入库8
3.3.4 其他分析采集规则  9
3.3.5映射储存入库规则  9
3.3.6数据库的编辑过程  9
4系统总体实现  10
4.1登入模块的设计  10
4.2信息采集模块的设计  13
4.2.1新闻采集模块设计  13
4.2.2图片采集模块设计 17
4.2.3采集模块一些关键代码  20
4.3数据处理模块的设计  22
4.3.1历史记录  22
4.3.2数据查看  23
4.3.3数据文护  24
3.3.4数据库介绍 26
5系统调试测试  29
5.1测试目的 29
5.2测试方法 29
5.3系统具体调试29
5.4测试结果 31
结论 32
致谢 33
参考文献34
 1  引言
信息多、有用少、分布杂乱无章、不断发展变化是互联网上信息资源特点,信息来源的异构性是网络信息难以采集整理再利用的焦点。近年来关于web信息利用研究很多,大多集中在搜索引擎技术,旨在利用先进系统和人工智能技术,以一定策略在互联网中搜集、发现、理解、组织信息后为用户提供网页、图片、软件等检索服务。
互联网信息采集系统是对Internet上某些或某类站点进行内容分析和分类整理,从网页中提取有效数据加工得到所需要的常常是该领域绝大部分资料,是新一代网络应用的方向,其不同于搜索引擎,纯智能化技术不能满足需要,不同于基于代理因特网信息获取的浏览器,他们下载的是页面,不能直接让用户抽取所需要数据项,不便自动实时监测源网站的更新信息等。
上一篇:面向对象软件的软件网络构建和可视化
下一篇:ASP.NET电网电压监测信息管理系统的设计

基于Apriori算法的电影推荐

ASP.NET的Web网络應用程序开...

资料:中國互联网发展现状分析【2114字】

电视进军互联网【2414字】

浅谈互联网的发展与隐私权保护【1640字】

互联网文化与电视文化的...

中國互联网发展现状分析【2360字】

承德市事业单位档案管理...

C#学校科研管理系统的设计

中国学术生态细节考察《...

神经外科重症监护病房患...

AT89C52单片机的超声波测距...

公寓空调设计任务书

10万元能开儿童乐园吗,我...

国内外图像分割技术研究现状

志愿者活动的调查问卷表

医院财务风险因素分析及管理措施【2367字】