企业公共信息互联网抓取与分析研究(5)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

企业公共信息互联网抓取与分析研究(5)

(2)信息加工的第二步是要进行信息的分析,其中包括信息的统计及加工,如何筛选出有效信息,统计有效信息,从而提出相应的对策。

(3)信息抓取与分析需要一个模型,如何建立网站与数据库的联系,模型需要获取哪些信息。公共信用信息融合分析,从上述的进行总结,得出结论。

2、实施方案

本文将通过环保局官网的数据来源,获取有关信息,建立数据库的联系,再对信息进行统计分析,通过相关模型进行分析处理,得到需要的数据信息,从而能为这些数据信息反映出的问题处理问题进而提出某些解决措施。

在这里,我们开发了一个简易网络爬虫程序,该程序定制抓取环保总局信息,然后将该信息作为数据源存入数据库。在本文中,我们将简单介绍网络爬虫技术,因为我们只是爬取一些特定的页面,并不涉及复杂的爬虫技术。本文将重点介绍如何解析通过网络爬虫程序抓取到的HTML页面,通过jsoup页面解析,我们将得到数据源,从而可以存入数据库。同时,论文介绍了数据库的设计,程序的架构,系统的实现与数据分析方法等。

该程序的实现,主要是为了抓取并整合信息,方便二次运用。通过爬虫程序抓取我们需要的网页,然后解析它获得想要的内容,这一简单直观的操作,让我们更容易的获取到有用信息,更方便地过滤掉垃圾信息。由于网页结构的多样性,网页解析需要定制一些规则,这就像相当于火车采集器中的撰写规则,这一举措希望能够对于简单有效地获取到页面的特定内容的研究有一定促进作用,提高信息获取效率,让我们的生活更加便捷高效。

1。3 相关技术介绍

1。3。1 java 介绍

Java语言是SUN公司开发出的新的程序设计语言。Java这一名字不禁让人想起一种产于印尼的咖啡——爪哇咖啡,它因为其极强的苦味和清淡的香气为人所熟知。实际上,java一名便是源于此,说起来,也算是一个有趣的故事,因为sun公司的工作人员一边思考着编程语言,一边品尝着浓香四溢的咖啡,最后,大伙儿决定就以芳香的咖啡命名这犹如新生儿的语言和技术[12]。

众所周知,实现软件需求的编程语言有很多,比如:C、C#、PHP以及当前炙手可热的PYTHON等。各种语言均有其各自的用武之地,古语云“先谋而后动”、“工欲善其事必先利其器”,编程语言就是每一个程序员手中的利器,但是,我们总是可以从武侠小说中看到各个武学学派均有其各自擅长的兵器,而每一个门派本身也不乏高手之说。何为高手,这就要求我们不仅仅在意“兵器”,更要深刻理解它的“灵魂”之妙。编程是每一个计算机人员的必修课,或许我们不应该将编程语言仅仅看做是一种技术,有时候我们不得不承认,编程语言也是一种艺术。JAVA如是。JAVA独特的魅力在于其思想!从其诞生之日开始,到如今《TIOBE世界编程语言排行榜》位居前列,无不显示出其发展的勃勃生机。文献综述

Java是一种简单的、面向对象的、分布式的、多线程的静态语言。面向对象与平台无关性是它的两大主要特性。它的诸多特性,大大提高了工程项目的成功率,正如“兵器犀利锋莫当”,java之于程序员就像菜刀之于厨师,就像兵器之于战士,“菜刀”的锋利度大大提高了项目完成的速度,相应的也减少了工作人员的工作量,这些优良特性使得它具备了优良的健壮性及可靠性。这也是本程序选择java编写的原因。

1。3。2 Navicat for MySQL介绍

Navicat for MySQL是一套专为MySQL设计的可视化管理工具,它能够实现强大数据库管理及开发。所谓可视化,是指可以将数据库中的内容依据数据的属性以更为简单直观的方式表现出来。这有一点台前与幕后的关系,但是navicat支持mysql的大部分功能,比如本设计中,我们在数据库中建立了一个jrtt表,这个功能一样可以在navicat中实现,另外,对syh、fl等的属性与字段的设置,我们也可以从navicat中查询得到。既然能完成建表、查询等基本功能,毫无疑问,它也可以实现检索和权限管理。不过,它的功能不仅仅局限与此,实际上它可以用于任何3。21或以上的MySQL数据库服务器。而且Navicat for MySQL不仅仅支持本地服务器,也支持远程MySQL服务器多连线。 (责任编辑:qin)