目录
0 绪论. 1
1 网络数据抓取系统的历史、分类及其发展趋势 1
1.1 网络数据抓取系统的历史1
1.2 网络数据抓取系统的分类3
2 系统分析..5
2.1 需求分析.. 5
2.2 可行性分析. 5
2.3 业务流程分析6
2.4 数据流程分析8
3 系统设计..9
3.1 功能模块设计9
3.2 页面布局设计.12
3.3 代码设计 13
4 系统实现25
4.1 开发环境. 25
4.2 文件结构 25
4.3 各功能模块实现26
5 系统测试和维护..29
5.1 系统测试 29
5.2 系统维护 31
结 论.33
致 谢.34
参考文献.35
网络数据抓取系统的分析、设计与开发0 绪论网络数据抓取系统,俗称为网络爬虫,是一种按照一定的规则和算法,自动抓取互联网信息的程序系统。该程序通过网页的链接地址来寻找网页,一般从网站的首页开始,读取该页面的内容,找到所有的链接并通过分析算法过滤掉一些不相关的链接, 然后通过这些链接地址去寻找下一个网页或者获取该链接内的相关内容,这样一直循环下去直到所有的链接访问完毕为止[2]。在当今这个被称为“大数据”时代的阶段,互联网内容的爆炸性发展带来了人们对内容检索的需求,这就催生了具有网络检索功能的系统。而伴随着诸如谷歌、百度这样的搜索引擎的不断发展,人们的需求也在不断的提高,人们几乎每天都要通过网络信息搜索来获取生活中的各种所需信息,因此,如何让搜索引擎能够时刻满足人们的需求这个问题也日益备受关注。 因此在搜索引擎中最重要的功能之一,便是基于关键词的特定网络数据抓取功能。