Web.py百度网盘的网络爬虫设计+源程序_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

Web.py百度网盘的网络爬虫设计+源程序

摘要自从 2012 年 3 月 23 日百度网盘正式上线以来,通过百度网盘进行资源分享 成为了一种普遍的方式。无疑,作为国内最大的云服务提供者——百度网盘,是 一个资源宝库,然而百度网盘官方并未公开提供针对百度网盘的资源检索系统。 84430

本文首先介绍了网络爬虫的定义,百度网盘网络爬虫的研究背景及现状以及 本文的主要内容。然后基于百度网盘的研究,构建一个针对百度网盘公开分享资 源的网络爬虫,并对百度网盘爬虫的关键技术(获取 Target Urls,网络请求,页 面解析,数据清洗,数据存储)及检索系统所需要的关键技术(Lucene, 数据库, 前端框架)进行系统介绍和深入分析。在此基础上,对获取的资源构建一套检索 系统,最终构建一个 web 站点供用户搜索百度网盘资源。 

毕业论文关键词: 网络爬虫;百度网盘;MongoDB;Web。py

Abstract Baidu Cloud launched on March 23, 2012 and since then sharing resources by Baidu Cloud has become a popular way。 No doubt, as the largest cloud service provider

- Baidu network disk, which is a treasure trove of resources。 However, Baidu company does not provided users with resources retrieval system officially。

This paper introduces the definition of web crawler, the background of web spider research and the current research status of web crawler focused in Baidu network disk。 Next, building a network spider against resources shared publicly in Baidu network disk based on research towards Baidu Cloud。 And key technologies, such as Baidu network disk crawler (getting target urls, network requests, page parsing, data cleaning, data storage) and retrieval system key technology (Lucene, the database, the preceding frame) will be introduced and in-depth analysis。 On this basis, building a retrieval system for the existing resources and ultimately implementing a web site for people to search for Baidu network disk resources。

Keywords: Web Spider; Baidu Cloud; Lucene; MongoDB; Web。py

目录

第一章  绪论 1

1。1 研究背景与意义 1

1。2 百度网盘爬虫的研究现状 1

1。3 本文主要内容 2

第二章  相关技术及开发工具介绍 3

2。1 相关技术介绍  3 

2。1。1 Python 语言及网络爬虫介绍。 3 

2。1。2 MongoDB 介绍 。。 3 

2。1。3 Web。py 介绍 。 4 

2。1。4 Bootstrap 介绍。 5 

2。2 开发工具介绍  6 

2。2。1 利用 Fiddle 进行网络抓包 。 6 

2。2。2 编辑器 Sublime Text 3  7 

2。2。3 Python IDE PyCharm 8 

第三章  系统总体思路分析与设计 9

3。1 爬虫总体设计思路。。 9 

3。2 搜索模块设计 。 13 

3。3 数据库设计 。。 14 

3。4 前端设计与效果 16 

第四章  系统详细实现过程 18

4。1 爬虫模块的详细实现  18 

4。1。1 网络请求。。 18 

4。1。2 页面解析。。 20 

4。1。3 图的广度优先遍历 。。 23 

4。1。4 多线程 28 

4。1。5 搜索模块详细实现 。。 30 

4。2 数据库实现 。。 34 

4。3 前端详细实现 。 35 

第五章  系统测试 38

5。1 测试平台和工具 38 

5。2 测试方案设计 。 38  (责任编辑:qin)