摘要随着时代信息的发展,互联网已经成为人们生活中必不可缺的一部分,我们通过互联网购物,订外卖,查阅资料,联系朋友等。有一部分的互联网信息,并不被大家所熟知,那就是暗网(深网),搜索引擎上面没有它的踪迹,浏览器并不能直接访问到它。暗网上面承载着很多作者不想公布于众的信息。82530
本文首先介绍了这次课题用到的一些背景知识和相关的技术,让读者对于此课题有一个初步的了解,然后通过分析,设计并实现了一个暗网爬虫并且把抓取的数据保存建立搜索引擎,该系统支持全文搜索。
同时本系统采用scrapy框架对于数据进行抓取,django框架搭建搜索引擎,haystack框架来实现全文索引,系统结构简单,功能实用而且具有平台无关性,同时也对今后暗网搜索开发有一定的帮助作用。
毕业论文关键词 暗网 爬虫 scrapy django
毕业设计说明书外文摘要
Title The design and implementation of deepweb crawler system
Abstract Due to the continuous development of technology,Internet has become an essential part of our life,we shopping ,order take out ,access to information and connect with friends through the Internet。A part of the Internet information is not known to everyone, which is the darkweb (deepweb)。 the search engine does not have its trace, the browser does not directly access to it。Darkweb is carrying a lot of information which authors do not want to publish to the public。
In this paper, we first introduce the the task used some background knowledge and related technology, to allow readers to have a preliminary understanding on the subject, and then through the analysis, design and implement a dark web crawlers and search engines crawl data preservation and the system support full-text search。
We use scrapy framework for data crawling, the Django framework to build search engine, the haystack framework to realize the full-text index。The system has the advantages of simple structure, practical function and its platform independence, also make a great prograss in dark web search 。
Keywords deepweb crawler scrapy django
目 次
1 绪论 1
1。1 课题研究背景及意义 1
1。3 本论文组织形式 3
2 暗网爬虫相关技术 4
2。1 python及其相关技术简介 4
2。2 暗网简介 9
2。3 爬虫简介 10
2。4 反爬虫策略及解决方法 11
3暗网爬虫系统的设计 13
3。1需求分析 13
3。2环境配置 13
3。3爬虫模块 15
3。4搜索引擎模块 16
4 暗网爬虫系统的演示 21
结论 23
致谢 24
参考文献25
1 绪论
1。1 课题研究背景及意义
当今社会已经步入信息社会,搜索引擎作为一个信息的采集者在其中扮演着必不可缺的角色,但是其中信息的96%都是无法被搜索引擎采集的。在一部最近很热门的美剧《纸牌屋》中这样说道:“96%的互联网数据无法通过标准搜索引擎访问,其中的大部分属于无用信息,但那上面有一切东西,儿童贩卖、比特币洗钱、致幻剂、赏金黑客”[1]。
百度,谷歌等著名搜索引擎无法发现的地下世界真的存在,搜索引擎无法抓取其中的内容,并且即使你知道暗网的地址,你也无法通过普通的浏览器对其进行访问。