目录 III

图清单 III

1 综述 1

1。1 背景及意义 1

1。2 研究内容 2

1。3 相关技术介绍 4

2 基于网络爬虫技术的个性化企业信息获取方法研究 6

2。1 爬虫的简介 6

2。2 理解URL 6

2。3 通过URL抓取网页 7

2。4 网页抓取策略 8

3 HTML页面解析 10

3。1 理解HTML 10

3。2 解析方法 10

3。3 乱码问题的产生及获取 11

3。4 页面内容获取 11

4 企业公共信息抓取系统设计 14

4。1数据库设计 14

4。2 信息抓取流程 16

4。3 代码架构与分析 16

5 企业公共信息抓取系统效果与数据分析 29

5。1 信息抓取情况 29

5。2 系统效果展示与数据分析 29

总结与展望 33

参考文献 34

致  谢 36

图清单

图序号 图名称 页码

图1-1 Navicat界面 5

图2-1 爬虫示例图 6

图2-2 文件源码例子 8

图2-3 Hbzj(环保总局)文件 8

图2-4 遍历示例 9

图3-1 Html页面 11

图3-2 局部页面对应的源代码 11

图3-3 源码中的需求信息示例 12

图4-1 数据库建表信息 13

图4-2 行政处罚信息E-R图 14

图5-1 抓取的数据展示 28

图5-2 用户登录页面

29

图5-3 用户登录流程图 28

图5-4 权限管理页面

30

图5-5 新闻管理页面 30

图5-6 管理员用例图 31

图5-7 用户用例图 31

图5-8 数据分析结果

上一篇:jsp+mysql学生党建管理系统的设计与实现
下一篇:jsp+mysql企业人事管理信息系统的设计与实现

高职院校公共机房的管理维护【2471字】

银行行办公信息服务系统【1544字】

论信息技术茬外语教學中的應用【3270字】

计算机信息管理茬第三方...

电子政务建设与民营企业...

电子商务中信息不對称问题研究【2365字】

用友NC信息系统的实施應用实践研究【3307字】

互联网教育”变革路径研究进展【7972字】

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

张洁小说《无字》中的女性意识

安康汉江网讯

网络语言“XX体”研究

老年2型糖尿病患者运动疗...

LiMn1-xFexPO4正极材料合成及充放电性能研究

ASP.net+sqlserver企业设备管理系统设计与开发

我国风险投资的发展现状问题及对策分析