图1。1 网络资源分布图
暗网和表层网络的比例: 暗网这个概念是在1994年由美国军方科学 家提出的,1996年5月,美国海军研究实 验所的3名科学家提交了一篇论文,题目是《隐藏路径信息》,提出打造一个系统, 使用者在连接因特网时不会向服务器泄露身份[2]。他们称之为洋葱路由,因为用户的信息像洋葱一样一层一层包裹起来。这一设想最初开始实施的时候,被设计者命名为tor,是洋葱路由的首字母缩写,后来被称作暗网(深网)。他的设计精度极高,以至于创作者都无法摧毁它。在早期的Internet中,就有人使用假的身份信息,在网络中伪造另一个自己,和现实生活中没有任何关系。但是随着网络和大数据的发展,尤其是facebook的出现,很多网民的信息都可以被搜索出来,这样隐私暴露在了大众的视野下,如今我们走在哪里,都在散播着我们的隐私,浏览痕迹,视频喜好,社交圈,甚至我们的位置。但是在暗网上,则不是。
为什么美国军方要打造这样一个不涉及隐私的系统呢?原因有很多,警方可以通过这种方式调查犯罪组织而不打草惊蛇,军方和秘密政府部门可以进行秘密通信等等,暗网的特点就是可以让用户绝对隐身,无论是ip地址,身份,全部都无法追踪。与此同时,很多不法分子看到了暗网的特性,于是开始在暗网中做着许多在现实生活中和表层网络中无法做到的事情,现如今的暗网中充斥着各种犯罪的信息。在整个暗网系统的交易中,有一种货币广为流传,那就是比特币,这样暗网的发展更加猖獗。
本次课题意在抓取暗网中的内容,使得这些隐藏在表层网络后的数据得以被利用,在当今这个大数据的环境下,数据的价值连城
本课题就使用Scrapy+Django框架来抓取指定暗网中的信息,并且建立搜索引擎,让用户可以正常访问其中的内容。
1。2 国内外研究现状
1。3 本论文组织结构
基于当前的背景和研究现状分析,本题拟采用python-scrapy框架,抓取暗网中的信息,并且使用haystack建立索引,用Django完成展示,本论文的组织结构如下:
第二章:对本题中使用到的一些技术做一些简单介绍,对技术的关键点进行分析。其中包括如访问洋葱网络需要的配置,Scrapy框架的使用,如何使爬虫可以解析暗网中的数据,Haystack全文索引的建立,Django的简单使用等相关技术。
第三章:主要介绍了课题的设计细节,程序的功能,技术模块的分析,数据库的设计,其中包括如何配置访问暗网的主机环境;爬虫如何配置访问暗网,一些抓取规则,分析数据方法;全文索引模型建立方法;如何使用django搭建搜索引擎。
第四章:介绍了课题的系统的主要功能,并且分别对其进行展示。
2 暗网爬虫的相关技术
设计暗网爬虫并且搭建搜索引擎的过程中会用到很多专业的技术,在设计整个项目之前,有必要对其用到的技术进行一一介绍。
2。1 python及其相关技术简介论文网
本系统的所有设计都是基于python语言来编写的,用到了python中的一些框架,下面我对python做一个简单的介绍。
Python是由Guido van Rossum 在80年代,在荷兰国家数学和计算机研究所设计出来的[3]。Python本身也是结合了许多语言的优点发展而来的,这其中包括ABC、Modula-3、C、C++、Algol-68、SmallTalk、Unix shell 和其他的脚本语言等等。
Python是一门脚本语言,类似于js,php等,运行前不需要编译,是一行一行执行的;而且你还可以交互式的运行python,在控制台中打开python,可以直接互动执行你所写的程序;同时python也是一门面向对象的语言,python提供了面向对象的的代码风格和类的封装;python也是一门适合初学者学习的语言,python具有非常高的可读性,他的涉猎面非常广泛,从科学计算,到网站,游戏,python全部可以胜任,而且还有无数的框架,库等,对于开发者来说,使用起来非常方便,快捷。除了上述特性,python还具有很高的可移植性,由于他的源码开放的原因,他可以被移植到许多工作平台;而且python的可拓展性也非常高,在python用作科学计算的时候,需要运行相当大的数据量,但是python自身的效率并不算很高,这时我们可以在其中嵌入C或者C++代码提高他的执行效率 ,python还支持GUI编程,可以创建和移植到许多系统调用。本次课题主要用到了python的web框架django,也是一个快捷开发的web框架,开发起来方便,简单。