摘要在互联网高速发展的今天,信息技术已广泛应用于各领域。人们越来越意识到网络应用及其产生的数据的重要性,云计算和大数据也就逐渐得到人们重视。快速分析出海量数据中的有效信息,对其加以计算处理,成为了当今互联网行业的热门话题。80709

本课题结合Hadoop分布式系统,从分析网站日志出发,研究用户上网行为,达到分析用户上网时间分布和用户最常访问页面的目的,得出用户上网行为习惯的结论。本文主要总结:

熟悉Linux、Hadoop,掌握Linix下Hadoop程序开发方法;

编写Map、Reduce函数,对数据进行处理;

部署Hadoop下分布式文件系统;

实现大数据环境下分析用户上网时间分布并保存;

实现大数据环境下分析用户对所有网页的访问频次并保存。

毕业论文关键词  用户上网行为分析;hadoop;分布式;大数据

毕业设计说明书外文摘要

Title   The design and implementation of the analysis system which is used for Internet users                   

Abstract With the rapid development of today’s Internet, information technology are widely applicable in various areas。 People are never overestimating the importance of network applications and their subsequent data output, and especially the value of the cloud computing and big data technology。 Among the hottest topics in Internet industrial researched, are how to quickly analyze a great amount of data for meaningful information, and how to refine it with further processing and computation。

This project conducts data processing and analysis of website visit logs to discover Internet user behaviors on Hadoop distributed computing system。 User habits on web browsing are profiled and summarized based on the variation of each user’s web browsing durations and the mostly visited pages。

This thesis summarizes the work and contribution in the following aspects:

Getting familiar with Linux system, Hadoop platform, and the Hadoop program development technique on Linux。

Composing appropriate Map() and Reduce() functions to process data。

Deploying Hadoop distributed file system (HDFS)。

Deriving and storing the distribution of user web browsing duration with big data support

Revealing the frequency of mostly visited webpages。

Keywords  Analysis of users' Internet behavior ; hadoop ; Distributed System  ; Big data

目   次

第1章 绪论 1

1。1研究背景 1

1。2 研究现状 1

1。3 研究意义 2

1。3。1 精细划分用户群组 2

1。3。2 便于上网管理 2

1。3。3 便于制定更合理的网络运营政策 2

1。4 本文结构 2

第2章 开发工具及技术 4

2。1 MapReduce 4

2。1。1 MapReduce与关系型数据库比较 4

2。1。2 MapReduce的结构 6

2。1。3 MapReduce工作流程 6

2。2 分布式文件系统 7

2。2。1 HDFS的结构 7

2。2。2 HDFS的工作流程 9

2。2。3 HDFS的主要特点

上一篇:移动云计算中基于多用户协作资源共享算法研究
下一篇:asp.net+sqlserver幼儿园图书互借系统设计

抖音短视频用户使用动机研究【2803字】

嵌入式图形用户界面茬S...

多用户多天线FDD下行系统...

php网上书城用户交互界面的设计+ER图

大网络环境下的数据挖掘用户的行为挖掘

B2C电子商务网站用户体验评价研究【2106字】

面向精准营销的移动互联...

网络语言“XX体”研究

新課改下小學语文洧效阅...

我国风险投资的发展现状问题及对策分析

张洁小说《无字》中的女性意识

互联网教育”变革路径研究进展【7972字】

麦秸秆还田和沼液灌溉对...

LiMn1-xFexPO4正极材料合成及充放电性能研究

安康汉江网讯

老年2型糖尿病患者运动疗...

ASP.net+sqlserver企业设备管理系统设计与开发