企业公共信息互联网抓取与分析研究(2)
时间:2021-10-17 20:14 来源:毕业论文 作者:毕业论文 点击:次
目录 III 图清单 III 1 综述 1 1。1 背景及意义 1 1。2 研究内容 2 1。3 相关技术介绍 4 2 基于网络爬虫技术的个性化企业信息获取方法研究 6 2。1 爬虫的简介 6 2。2 理解URL 6 2。3 通过URL抓取网页 7 2。4 网页抓取策略 8 3 HTML页面解析 10 3。1 理解HTML 10 3。2 解析方法 10 3。3 乱码问题的产生及获取 11 3。4 页面内容获取 11 4 企业公共信息抓取系统设计 14 4。1数据库设计 14 4。2 信息抓取流程 16 4。3 代码架构与分析 16 5 企业公共信息抓取系统效果与数据分析 29 5。1 信息抓取情况 29 5。2 系统效果展示与数据分析 29 总结与展望 33 参考文献 34 致 谢 36 图清单 图序号 图名称 页码 图1-1 Navicat界面 5 图2-1 爬虫示例图 6 图2-2 文件源码例子 8 图2-3 Hbzj(环保总局)文件 8 图2-4 遍历示例 9 图3-1 Html页面 11 图3-2 局部页面对应的源代码 11 图3-3 源码中的需求信息示例 12 图4-1 数据库建表信息 13 图4-2 行政处罚信息E-R图 14 图5-1 抓取的数据展示 28 图5-2 用户登录页面 29 图5-3 用户登录流程图 28 图5-4 权限管理页面 30 图5-5 新闻管理页面 30 图5-6 管理员用例图 31 图5-7 用户用例图 31 图5-8 数据分析结果 (责任编辑:qin) |