网络爬虫技术在品牌维权系统中的应用(3)
时间:2023-01-28 10:33 来源:毕业论文 作者:毕业论文 点击:次
1。2 国内外研究现状 1。2。1 通用网络爬虫研究现状 1。2。2 主题网络爬虫研究现状 1。3 本文研究内容与组织结构 本文在对通用爬虫算法以及主题爬虫算法理解的基础上把这两种爬虫运用到品牌维权系统上。研究的侧重点在于从商品的评论数据出发,针对淘宝或者京东此类的电子商务网站设计主题爬虫算法,并进行比较。本文将用java实现主题爬虫算法。 基于以上工作,本文章节安排如下: 第一章主要讲解了本文研究的背景,介绍了研究的意义以及国内外研究现状,给出了本文的主要工作以及各章节的内容安排。 第二章主要介绍了网络爬虫算法的理论基础。 第三章介绍了淘宝平台主题爬虫算法用到的关键技术,研究了三种针对淘宝的主题爬虫算法,并进行了比较。 第四章介绍了品牌维权系统的总体设计和需求可行性分析。来.自^优+尔-论,文:网www.youerw.com +QQ752018766- 第五章介绍了品牌维权系统的模块设计与实现。 第六章进行了总结并提出了需要改进及需要进一步研究的问题,最后展望了未来需要研究的工作。 第二章 网络爬虫算法的相关理论 2。1 通用爬虫算法 2。1。1 通用网络爬虫体系结构 网络爬虫技术是网页数据采集的核心技术,是搜索引擎的重要组成部分,常用广度优先或者深度优先的搜索策略抓取网络信息。一般通用网络爬虫会从一个初始网页开始,利用http协议与web服务器建立连接,web服务器响应后会返回请求数据,爬虫会读取所有的数据。在解析出URL数据后,爬虫会将获取到的URL放入队列集合,然后接着依次从队列集合中取出URL请求新数据并更新队列,重复上述步骤直到取到符合条件的内容。 (责任编辑:qin) |