第二章 网络爬虫算法的相关理论 5
2。1 通用爬虫算法 5
2。1。1 通用网络爬虫体系结构 5
2。1。2 通用网络爬虫的搜索策略 6
2。2 主题爬虫算法 7
2。2。1主题网络爬虫体系结构 7
2。2。2主题网络爬虫的搜索策略 9
2。3 通用爬虫算法与主题爬虫算法的比较 11
2。4 相关开发环境介绍 12
2。5 本章小结 13
第三章 淘宝平台主题爬虫的算法设计与实验分析 14
3。1 URL和正则表达式 14
3。1。1 URL简介 14
3。1。2 正则表达式 14
3。2 HTML网页结构分析与处理 15
3。2。1 HTML网页结构 15
3。2。2 HTML网页内容的提取 16
3。3基于htmlunit的爬虫算法设计 16
3。3。1 算法设计 17
3。4 基于HttpClient的爬虫算法设计 18
3。5 基于淘宝开放API的爬虫算法设计 20
3。5。1 淘宝商品评论获取API分析 20
3。5。2算法设计 21
3。6 实验结果分析 21
3。7 本章小结 23
第四章 品牌维权系统总体设计 24
4。1系统需求分析与可行性分析 24
4。1。1 需求分析 24
4。1。2 可行性分析 24
4。2 系统总体设计 25
4。2。1 系统总体功能结构框架图 25
4。2。2 系统架构设计 26
4。2。3 数据库设计 26
4。3本章小节 28
第五章 品牌维权系统模块设计与实现 29
5。1 商品数据采集模块设计 29
5。1。1 网络爬虫模块 29
5。1。2 网页解析模块设计 33
5。2 用户模块设计 35
5。3 管理员模块设计 36
5。4 web前端展示模块设计 36
5。4。1 登录及搜索界面 36
5。4。2 数据展示界面 38
5。5系统测试 39
第六章 总结与展望 40
6。1 总结 40
6。2 展望 40
致 谢 41
参 考 文 献 42
第一章 绪论
1。1课题研究的背景及意义
1。1。1研究背景
随着时代的迁移,互联网技术迅速发展,移动智能产品得到大量的普及,网民数量也大幅度增长,这些因素使得近年来电子商务快速崛起。截至2015年12月,中国网民规模达到6。88亿,互联网普及率达到50。3%,中国居民上网人数已过半[1]。因为网上购物与传统的线下购物有着很大的区别,消费者无法看到真实的产品辨别真伪,这就导致了假冒伪劣产品泛滥不止。电子商务假冒伪劣商品泛滥的原因主要有以下几点:文献综述
(1)假冒伪劣产品的制造成本低、利润高。
(2)消费者不擅于维护自己的合法权益,即使知道自己买到了假冒伪劣产品也很少通过法律途径来维权,通常选择协商退货或者不了了之。
(3)在我国针对电子商务的法律法规仍然不够全面,对售假、造价的惩罚力度不够。
1。1。2研究意义
在电子商务假冒伪劣商品泛滥的背景下,构建品牌维权系统,帮助品牌商和消费者维权打假有着重大的意义。
品牌维权系统的核心功能商品信息采集。用户可以通过查看实体图,价格,评论等等信息来判定是否为假冒伪劣产品。为提高系统信息采集的能力,需要深入研究网络爬虫技术。好的网络爬虫算法不仅能使品牌维权系统精确的获取商品信息而且也能使系统有着较高的信息采集效率。本文将深入研究网络爬虫算法并将其应用到品牌维权系统中。 网络爬虫技术在品牌维权系统中的应用(2):http://www.youerw.com/jisuanji/lunwen_130286.html