第二章是相关技术与分析,对比了Hadoop2。0和Hadoop1。0的区别,细致的描述了Hadoop架构,以及分布式存储的原理,MapReduce计算方式,以及非结构化数据存储技术,主要是Hbase,以及一些较为常用的推荐算法。
第三章是需求分析与架构设计,通过分析了用户在实际中的需求,概述了旅游线路推荐系统的框架,以及各个模块的功能。
第四章是混合推荐算法的设计与实现,通过分析用户模型中的关键字以及海量用户历史信息中用多种算法加权计算,实现了推荐系统为用户推荐合适的旅游线路
第五章是网上旅游线路推荐模型的设计与实现,根据系统的需求分析,结合当前开源技术,完成推荐系统的设计。同时按照设计,完成在Hadoop平台的功能模块的实现,并详细介绍了实现相应功能的方法与代码。
第六章是推荐结果对比与分析,主要任务就是测试推荐系统的性能,通过测试数据分析推荐出的旅游线路与用户的精确度。
第七章是总结与展望。通过测试系统的性能与精确度测试,总结当前研究存在的问题与不足,并提出在原系统的基础上提出新的目标,做出更高效更精确的推荐系统。
第2章相关技术与分析
2。1Hadoop生态圈平台架构分析
2。1。1Hadoop架构平台分析
(1)Hadoop简介
Hadoop最早起源于Nutch。Nutch是一个开源的网络搜索引擎,由Doug Cutting于2002年创建。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引,查询等功能,随着网页抓取数量的增加,遇到严重的可扩展问题,即不能解决数十亿网页的存储和索引的问题,之后,Google发布的两篇论文(The Google File System和MapReduce: Simplified Data Processing on Large Clusters)为该问题提供了可行的解决方案。
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序,以流的形式访问(streaming access)文件系统中的数据。
(2)Hadoop核心设计
Hadoop的核心(见图1)就是HDFS和MapReduce。在Hadoop架构底层是HDFS分布式存储系统,主要承担数据存储的平台的角色,而MapReduce是负责计算程序的执行,两者相辅相成。
HDFS: HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。HDFS的设计特点是:大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了;文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多;流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容;廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群;硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。 HADOOP基于大数据的网上旅游线路推荐模型构建(4):http://www.youerw.com/jisuanji/lunwen_92388.html