企业公共信息互联网抓取与分析研究(6)

一般情况下，软件界面如下：

图1-1 navicat for mysql界面

但是，一件事物的好与坏并不能依据表面而得出结论，navicat 也一样，上面我们谈及了它的种种优点，然而，作为服务于工作的一款软件，最重要的在于符合用户操作习惯，给用户带来极致的使用体验。这一点，navicat同样做到了，它使用了一图形为主导的完美的用户界面，不论在视觉还是操作上，都满足了工作要求。另外，在当前信息安全系数不高的情况下，它能够保障信息的安全，并能够迅速安全的实现创建、组织、存储及共享。

2 基于网络爬虫技术的个性化企业信息获取方法研究

2。1 爬虫的简介

在宛若汪洋的互联网中，信息就像其中的一滴滴水，为了获取它们服务于学习工作，我们总是习惯于利用“水瓢”——搜索引擎获取它们。从我们身边说起，需要挖掘信息的时候，绝大部分人都会自然而然地想到“百度一下，你就知道”，输入关键字，获得一系列相关的内容。而这种看似简单的原理背后，就是接下来将介绍的网络爬虫技术（web spider或web crawler）。

现在，我们便联系大自然中蜘蛛结网这一神奇现象来引出本节的“主人公”。众所周知，蜘蛛通过分泌粘液，在空气中形成很细的丝来捕获它的猎物，而万维网就像这么一张巨大的“网”，里面粘附着盈千累万、纷繁复杂的信息。Web crawler 便像在这张网上狩猎的爬虫，以期捕获自己所需的“猎物”。但是，究竟如何从一个立足点，引出无数根延伸向周边的长丝呢。在下面一节，将引出URL这一概念。

根据不同的抓取需求，爬虫也分为很多种。比如基于web 的爬行器，它主要用于采集web 上的资源，节约在万维网上获取需求的时间，减少了信息采集的空间开销。由于我们定向爬取环保总局的数据，本文中的爬虫就可以理解为基于用户个性的爬虫，即定制爬虫，只获取所需要的页面，而且只取上面关心的内容。它爬取符合我们所期待的结果。[12]

2。2 理解URL

同样地，以上一节蜘蛛结网方式作比拟，蜘蛛网的形成是以一条条“缆索”为基础，在这些缆索与缆索之间架构形成的。这些“缆索”自然体现了一定的规则。与此相似，爬虫技术也是依据一定的规则，程序根据这些规则，自动爬取网页，从而从万维网上下载网页，获取“猎物”，而URL正是web上的“缆索”。来*自-优=尔,论:文+网www.youerw.com

2。3 通过URL抓取网页

网页的抓取，是网络爬虫程序最基本的操作。

实质上，抓取网页的过程同我们浏览网页的过程异曲同工。平日里，浏览网络已经成为了每个人的必杀技。这一操作，对每个人来说都不费吹灰之力，在浏览器上方的地址栏输入网站URL地址，转入地址所反映的页面。这一过程并不是单向、一蹴而就的，而是存在着我们看不到的第三方——“服务器端”。服务器端接收到用户浏览页面的请求之后，将文件体现在客户端，这便是我们所见到的页面。网页抓取过程同获取过程是一致的。“蜘蛛”通过URL地址，追根溯源获得网页。在网页的抓取过程中，由于URL数目繁多，往往以队列或者URL池的形式存在，而我们如何从队列中选取URL，哪些URL作为我们的优先抓取对象，以何种方式抓取，便成了一个关键问题。

为了便于理解，我们可以直观的看到页面的源代码，在浏览器上查看，操作很简单，如下：在页面中任意地方右击一下，会出现一个指令框，在出现的选项中选择“查看——源文件”，就会看到从服务器“抓取”到的html文件源代码。企业公共信息互联网抓取与分析研究(6):http://www.youerw.com/jisuanji/lunwen_83102.html