摘要自从 2012 年 3 月 23 日百度网盘正式上线以来,通过百度网盘进行资源分享 成为了一种普遍的方式。无疑,作为国内最大的云服务提供者——百度网盘,是 一个资源宝库,然而百度网盘官方并未公开提供针对百度网盘的资源检索系统。 84430

本文首先介绍了网络爬虫的定义,百度网盘网络爬虫的研究背景及现状以及 本文的主要内容。然后基于百度网盘的研究,构建一个针对百度网盘公开分享资 源的网络爬虫,并对百度网盘爬虫的关键技术(获取 Target Urls,网络请求,页 面解析,数据清洗,数据存储)及检索系统所需要的关键技术(Lucene, 数据库, 前端框架)进行系统介绍和深入分析。在此基础上,对获取的资源构建一套检索 系统,最终构建一个 web 站点供用户搜索百度网盘资源。 

毕业论文关键词: 网络爬虫;百度网盘;MongoDB;Web。py

Abstract Baidu Cloud launched on March 23, 2012 and since then sharing resources by Baidu Cloud has become a popular way。 No doubt, as the largest cloud service provider

- Baidu network disk, which is a treasure trove of resources。 However, Baidu company does not provided users with resources retrieval system officially。

This paper introduces the definition of web crawler, the background of web spider research and the current research status of web crawler focused in Baidu network disk。 Next, building a network spider against resources shared publicly in Baidu network disk based on research towards Baidu Cloud。 And key technologies, such as Baidu network disk crawler (getting target urls, network requests, page parsing, data cleaning, data storage) and retrieval system key technology (Lucene, the database, the preceding frame) will be introduced and in-depth analysis。 On this basis, building a retrieval system for the existing resources and ultimately implementing a web site for people to search for Baidu network disk resources。

Keywords: Web Spider; Baidu Cloud; Lucene; MongoDB; Web。py

目录

第一章  绪论 1

1。1 研究背景与意义 1

1。2 百度网盘爬虫的研究现状 1

1。3 本文主要内容 2

第二章  相关技术及开发工具介绍 3

2。1 相关技术介绍  3 

2。1。1 Python 语言及网络爬虫介绍。 3 

2。1。2 MongoDB 介绍 。。 3 

2。1。3 Web。py 介绍 。 4 

2。1。4 Bootstrap 介绍。 5 

2。2 开发工具介绍  6 

2。2。1 利用 Fiddle 进行网络抓包 。 6 

2。2。2 编辑器 Sublime Text 3  7 

2。2。3 Python IDE PyCharm 8 

第三章  系统总体思路分析与设计 9

3。1 爬虫总体设计思路。。 9 

3。2 搜索模块设计 。 13 

3。3 数据库设计 。。 14 

3。4 前端设计与效果 16 

第四章  系统详细实现过程 18

4。1 爬虫模块的详细实现  18 

4。1。1 网络请求。。 18 

4。1。2 页面解析。。 20 

4。1。3 图的广度优先遍历 。。 23 

4。1。4 多线程 28 

4。1。5 搜索模块详细实现 。。 30 

4。2 数据库实现 。。 34 

4。3 前端详细实现 。 35 

第五章  系统测试 38

5。1 测试平台和工具 38 

5。2 测试方案设计 。 38 

上一篇:菌群优化算法的研究+源程序
下一篇:粗糙集的特征选择及其分类研究+源程序+答辩PPT

基于百度语音识别api的语音识别服务

Android百度地图停车帮手的设计

基于百度地图API的老龄人...

Android百度地图定位导航系...

Android百度地图智慧出行系统设计与实现

基于安卓及百度地图API的跑步计划管理

百度地图基于Android平台的...

麦秸秆还田和沼液灌溉对...

我国风险投资的发展现状问题及对策分析

互联网教育”变革路径研究进展【7972字】

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

LiMn1-xFexPO4正极材料合成及充放电性能研究

网络语言“XX体”研究

张洁小说《无字》中的女性意识

安康汉江网讯

ASP.net+sqlserver企业设备管理系统设计与开发