网络爬虫的设计与实现+文献综述(5)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

网络爬虫的设计与实现+文献综述(5)


1.servlet是持久的。servlet只需Web服务器加载一次,后续又用到这个servlet,就不需要再加载。(所谓加载是指servlet加载进JVM运行)
2.servlet是与平台无关的。
3.servlet是可扩展的。
ActionServlet继承自javax.servlet.http.HttpServlet类,其在Struts framework中扮演的角色是中心控制器。它提供一个中心位置来处理全部的终端请求。控制器ActionServlet主要负责将HTTP的客户请求信息组装后,根据配置文件的指定描述,转发到适当的处理器Action。
Servlet的原理图描述如下:
图2.1 Servlet的原理
使用servlet有几个优点:
一是有效性,servlet的初始化代码仅在web服务器第一次加载的时候执行一次,一旦加载了servlet,在处理一个新的请求的时候,只须调用一个新的服务方法。与处理每个请求都要全部加载一个完整的可执行程序相比,效率得到了大大的提高。
二是稳定性,servlet能够文护每个请求的状态,一旦加载了servlet,它就驻留在内存中,对收到的请求提供服务。
三是可移植性,servlet是用java开发的,因此它是可移植的,这种可移植性使servlet能够移植到新的操作系统中而不必改变代码。
四是安全性,servlet在服务器端运行,因此,安全性由web服务器提供能保障,servlet也能够利用java Security Manager提供的安全性功能。
2.2    解析HTML
因为Web中的信息都是建立在HTML协议之上的,所以网络爬虫在检索网页时的第一个问题就是如何解析HTML。在解决如何解析之前,先来介绍下HTML中的几种数据。
文本:除了脚本和标签之外的所有数据;
注释:程序员留下的说明文字,对用户是不可见的;
简单标签:由单个表示的HTML标签;
开始标签和结束标签:用来控制所包含的HTML代码。
我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析。
超连接标签:超连接定义了WWW通过Internet链接文档的功能。他们的主要目的是使用户能够任意迁移到新的页面,这正是网络机器人最关心的标签。
图像映射标签:图像映射是另一种非常重要的标签。它可以让用户通过点击图片来迁移到新的页面中。
表单标签:表单是Web页面中可以输入数据的单元。许多站点让用户填写数据然后通过点击按钮来提交内容,这就是表单的典型应用。
表格标签:表格是HTML的构成部分,通常用来格式化存放、显示数据。
我们在具体解析这些HTML标签有两种方法:通过JavaTM中的Swing类来解析或者通过HTMLParser类来解析。 (责任编辑:qin)