5。3 测试结果与分析 38
结 论 40
致 谢 41
参 考 文 献 42
第一章 绪论
1。1 研究背景与意义
每时每刻,搜索引擎和网站都在采集大量信息,非原创即采集。采集信息的 程序一般称为网络爬虫,其一般行为是先“爬”到对应的网页上,再把需要的信 息“铲”下来。网络采集就像是一只辛勤采蜜的小蜜蜂,它飞到花(目标网页) 上,采集花粉(需要的信息),经过处理(数据清洗,存储)变成蜂蜜(可用的 数据)。
网络数据采集大有作为。在大数据深入人心的时代,网络数据采集作为网络、 数据库与机器学习等领域的交汇点,已经成为满足个性化网络数据需求的最佳实 践。搜索引擎可以满足人们对数据的共性需求,即“我来了,我看见”,而网络 数据采集技术可以进一步精炼数据,把网络中杂乱无章的数据聚合成合理规范的 形式,方便分析与挖掘,真正实现“我征服”。
百度网盘作为目前最大的云服务提供者,拥有大量的用户和资源。然而遗憾 的是官方并未推出一套针对百度网盘全网公开分享资源搜索引擎系统。而通用的 搜索引擎如 Google,Baidu,Bing 等对特定主题如百度网盘的搜索存在准确性低, 干扰信息大等缺点。如果能够对其进行研究,通过网络爬虫爬取全部公开分享资 源,进行整合,再依托开源全文本检索引擎系统建立一套针对百度网盘的搜索引 擎,必然能够满足海量百度网盘用户查找所需资源的需求。
1。2 百度网盘爬虫的研究现状
1。3 本文主要内容
本文主要内容是研究爬虫的原理并且使用 Python 实现基于百度网盘的网络 爬虫,实现抓取百度网盘公开分享资源;用 Lucene 实现全文检索,实现高效检 索目标资源。在此基础上,增加 web 交互页面,实现一套完整的百度网盘搜索 引擎。论文的结构如下:
第一章概述了选题的意义和背景,搜索引擎的发展现状以及本文主要 内容。
第二章对系统相关技术及工具作了简单介绍。
第三章概述了系统的总体设计思路与分析。
第四章给出了系统各个模块的详细实现与介绍。
最后一部分是结论,给出了整个毕业设计所取得的成果以及对未来的 展望。
第二章 相关技术及开发工具介绍
本章主要介绍了整个系统所用到的一些技术(Python,MongoDB,Web。py,
Bootstrap)和开发工具(PyCharm,Notepad++,Fiddle)。
2。1 相关技术介绍
2。1。1Python 语言及网络爬虫介绍
在此,引用维基百科上对网络爬虫的定义:网络蜘蛛(Web spider)也叫网 络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在 FOAF 软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序, 或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以 获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的 页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能 更快的检索到他们需要的信息。[1]