而对于国家而言,扔有很多危及社会安全的行为,在线博彩、浏览非法网站等造成法律问题的行为,设计制造、传播木马病毒等威胁网络安全的行为,都需引起我们的注意。这样才能打造日趋完善的网络环境,为广大网民提供帮助。文献综述
1。3。3 便于制定更合理的网络运营政策
研究出用户的行为习惯,提供给网络监管部门和运营商,有助于完善网络方面的法律法规,也能为运营搭配更适合不同用户的服务套餐提供帮助。
1。4 本文结构
本文共分为6章,每章节重点内容如下:
第1章阐述了当前时代环境下,用户上网行为分析的研究背景,介绍了目前国内外主要研究成果与方向,说明本文的意义。
第2章介绍本次设计相关技术,包括MapReduce、分布式文件系统、Hadoop集群。
第3章为需求及可行性分析,从几个角度论述实现本课题的需求性和可行性。
第4章是系统设计部分,分析整个系统及每部分功能的设计思路。
第5章为系统实现章节,主要针对已经设计好的各系统功能做出相应实现,完成系统。
第6章是系统功能测试,对已经实现了的两个模块做性能测试。
第2章 开发工具及技术
本次开发主要使用Hadoop。Hadoop中,最核心的就是MapReduce模型,简单来说,Map(映射)是为Reduce(归约)做准备,从系统读入的任何可接受格式的文本中读取信息(Mapreduce中称其键值对),并将其映射成一组新的键值对提供给Reduce,而Reduce阶段则是将数据做相应处理,得出所需结论。
2。1 MapReduce
2。1。1 MapReduce与关系型数据库比较
2。1。1。1 适用环境不同
同样是对数据进行分析,为什么我们选用MapReduce而不是选用关系型数据库呢?首先我们来看一下二者的比较:
表2。1 关系型数据库和MapReduce的比较
传统关系型数据库 MapReduce
横向扩展 非线性 线性
完整性 高 低
结构 静态模式 动态模式
更新 多次读写 一次写入多次读取
访问 交互式和批处理 批处理
数据大小 GB PB
当今时代我们需要处理的数据的数量级已经不只是局限于GB、TB,常常是PB甚至EB,而磁盘发展趋势也表明磁盘的读写速度的提升远远落后于网络传输速度的提升,也就是说磁盘读写寻址时间远大于传输速率,在这种情况下,处理大批量数据的主要耗时就是读写时间(我们可以认为在工作量一定的情况下,所需时间与读写速率成反比)。此外,如果在在已经存储了信息的数据库中修改大量信息,MapReduce就很实用,但只是想修改很少一部分信息时关系型数据库则更具有优势,因为其仅与寻址的比例有关系。在考虑需要对很大量数据处理并在尽可能一次写入多次分析的情况下,MapReduce用时短、无需自配多台处理器、操作简单等优势得以完全展现。来:自[优.尔]论,文-网www.youerw.com +QQ752018766-
2。1。1。2 处理对象不同
上文中提到,MapReduce可以处理任何可接受的格式的信息,这也是它与传统关系型数据库的另一个不同点。在关系型数据库模型中,待处理信息要按照预先约定好的格式或以表格或以文本形式存储,这类信息我们称之为结构化数据;还有一种数据我们成为半结构化数据,是指一些有一定格式但经常被忽略的数据;最后一种就是非结构化数据,指完全没有格式限制的数据,例如图像或纯文本信息。MapReduce在处理非结构化数据和半结构化数据时很有成效,因为每次处理数据都需要对数据做Map处理,得到我们需要的数据存储形式。而关系型数据库则不然,它需要所提供的数据完全符合其格式要求以避免冗余信息,提高其工作准确率与工作效率。