企业公共信息互联网抓取与分析研究(6)
时间:2021-10-17 20:14 来源:毕业论文 作者:毕业论文 点击:次
一般情况下,软件界面如下: 图1-1 navicat for mysql界面 但是,一件事物的好与坏并不能依据表面而得出结论,navicat 也一样,上面我们谈及了它的种种优点,然而,作为服务于工作的一款软件,最重要的在于符合用户操作习惯,给用户带来极致的使用体验。这一点,navicat同样做到了,它使用了一图形为主导的完美的用户界面,不论在视觉还是操作上,都满足了工作要求。另外,在当前信息安全系数不高的情况下,它能够保障信息的安全,并能够迅速安全的实现创建、组织、存储及共享。 2 基于网络爬虫技术的个性化企业信息获取方法研究 2。1 爬虫的简介 在宛若汪洋的互联网中,信息就像其中的一滴滴水,为了获取它们服务于学习工作,我们总是习惯于利用“水瓢”——搜索引擎获取它们。从我们身边说起,需要挖掘信息的时候,绝大部分人都会自然而然地想到“百度一下,你就知道”,输入关键字,获得一系列相关的内容。而这种看似简单的原理背后,就是接下来将介绍的网络爬虫技术(web spider或web crawler)。 现在,我们便联系大自然中蜘蛛结网这一神奇现象来引出本节的“主人公”。众所周知,蜘蛛通过分泌粘液,在空气中形成很细的丝来捕获它的猎物,而万维网就像这么一张巨大的“网”,里面粘附着盈千累万、纷繁复杂的信息。Web crawler 便像在这张网上狩猎的爬虫,以期捕获自己所需的“猎物”。但是,究竟如何从一个立足点,引出无数根延伸向周边的长丝呢。在下面一节,将引出URL这一概念。 根据不同的抓取需求,爬虫也分为很多种。比如基于web 的爬行器,它主要用于采集web 上的资源,节约在万维网上获取需求的时间,减少了信息采集的空间开销。由于我们定向爬取环保总局的数据,本文中的爬虫就可以理解为基于用户个性的爬虫,即定制爬虫,只获取所需要的页面,而且只取上面关心的内容。它爬取符合我们所期待的结果。[12] 2。2 理解URL 同样地,以上一节蜘蛛结网方式作比拟,蜘蛛网的形成是以一条条“缆索”为基础,在这些缆索与缆索之间架构形成的。这些“缆索”自然体现了一定的规则。与此相似,爬虫技术也是依据一定的规则,程序根据这些规则,自动爬取网页,从而从万维网上下载网页,获取“猎物”,而URL正是web上的“缆索”。来*自-优=尔,论:文+网www.youerw.com
2。3 通过URL抓取网页 网页的抓取,是网络爬虫程序最基本的操作。 实质上,抓取网页的过程同我们浏览网页的过程异曲同工。平日里,浏览网络已经成为了每个人的必杀技。这一操作,对每个人来说都不费吹灰之力,在浏览器上方的地址栏输入网站URL地址,转入地址所反映的页面。这一过程并不是单向、一蹴而就的,而是存在着我们看不到的第三方——“服务器端”。服务器端接收到用户浏览页面的请求之后,将文件体现在客户端,这便是我们所见到的页面。网页抓取过程同获取过程是一致的。“蜘蛛”通过URL地址,追根溯源获得网页。在网页的抓取过程中,由于URL数目繁多,往往以队列或者URL池的形式存在,而我们如何从队列中选取URL,哪些URL作为我们的优先抓取对象,以何种方式抓取,便成了一个关键问题。 为了便于理解,我们可以直观的看到页面的源代码,在浏览器上查看,操作很简单,如下:在页面中任意地方右击一下,会出现一个指令框,在出现的选项中选择“查看——源文件”,就会看到从服务器“抓取”到的html文件源代码。 (责任编辑:qin) |