企业公共信息互联网抓取与分析研究(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

企业公共信息互联网抓取与分析研究(2)

目录 III

图清单 III

1 综述 1

1。1 背景及意义 1

1。2 研究内容 2

1。3 相关技术介绍 4

2 基于网络爬虫技术的个性化企业信息获取方法研究 6

2。1 爬虫的简介 6

2。2 理解URL 6

2。3 通过URL抓取网页 7

2。4 网页抓取策略 8

3 HTML页面解析 10

3。1 理解HTML 10

3。2 解析方法 10

3。3 乱码问题的产生及获取 11

3。4 页面内容获取 11

4 企业公共信息抓取系统设计 14

4。1数据库设计 14

4。2 信息抓取流程 16

4。3 代码架构与分析 16

5 企业公共信息抓取系统效果与数据分析 29

5。1 信息抓取情况 29

5。2 系统效果展示与数据分析 29

总结与展望 33

参考文献 34

致  谢 36

图清单

图序号 图名称 页码

图1-1 Navicat界面 5

图2-1 爬虫示例图 6

图2-2 文件源码例子 8

图2-3 Hbzj(环保总局)文件 8

图2-4 遍历示例 9

图3-1 Html页面 11

图3-2 局部页面对应的源代码 11

图3-3 源码中的需求信息示例 12

图4-1 数据库建表信息 13

图4-2 行政处罚信息E-R图 14

图5-1 抓取的数据展示 28

图5-2 用户登录页面

29

图5-3 用户登录流程图 28

图5-4 权限管理页面

30

图5-5 新闻管理页面 30

图5-6 管理员用例图 31

图5-7 用户用例图 31

图5-8 数据分析结果 (责任编辑:qin)