18

5。 结论和展望 19

5。1 总结 19

5。2 展望 19

6。 20

7。 参 考 文 献 21

本科毕业设计说明书 第 1  页

1。 绪论

近年来,以 Hadoop 为代表的大数据平台已经广泛应用于各大互联网企业,用于推荐系统 的设计及实现。电信运营商也开始将目光转向用户数据,很多运营商开始利用大数据平台, 对用户的 DPI 上网日志进行分析和处理,同时结合用户现有的如套餐业务、号码归属、终端 信息等,对用户信息进行深度数据融合和交叉分析,最终得到精准的用户画像。本章节首先 介绍近年互联网发展状况以及国内外运营商的营销模式的转变,然后介绍了本项目的运行平 台——Hadoop 的框架结构,最后阐述了本文的主要任务以及论文结构。

1。1 课题研究背景

2015 年以来,国家大力发展互联网行业,提出“互联网+”行动计划,鼓励互联网 企业和传统行业结合,互联网正逐步渗入到我们生活的方方面面,对我们的影响也在迅 速扩大。计算机和信息技术的迅猛发展、迅速普及也使各个行业应用的规模迅速扩大, 行业应用所产生的数据也呈现出爆炸性增长的趋势,已经达到数百 TB 甚至数十至数百 PB 规模。据最新的第 37 次《中国互联网络发展状况统计报告》中显示,截至 2015 年 12 月,

中国网民规模达 6。88 亿,全年共计新增网民 3951 万人。互联网普及率为 50。3%,较

2014 年底提升了 2。4 个百分点(详见图 1。1)【1】。收集这些网民的上网记录并对他们的 上网行为进行分析,从而获得用户标签,给予客户精准化的推荐,是互联网企业发展的 核心竞争力。

图 1。1:中国网民规模和互联网普及率

第 2  页 本科毕业设计说明书

由于网民数量激增,数据的来源途径也非常多,数据的格式也越来越复杂,数据量 也会随着时间的推移和互联网行业的普及而变得越来越大,因此传统数据库再也无法满 足海量数据的存储和计算。所以,本课题选择分布式 Hadoop,其底层的分布式文件系统

(HDFS)具有高容错性、高吞吐量的优势,而且可以部署在低廉的硬件上。为了保证数 据不丢失同时提高计算效率,Hadoop 引进了数据冗余技术,为数据提供多个副本,即使 计算出错也可以重新进行分布式计算。同时,Hadoop 还可以存储各种格式的数据、支持 多种计算框架,既可以进行离线计算也可以进行在线实时计算【2】。可以说,Hadoop 是专 门为大数据而生的。

本课题是亚信科技(南京)有限公司和江苏电信的合作项目,其目标是通过用户画 像的建立,对用户信息进行多维度的挖掘,将所得的各项标签供房地产开发商或服务商 用于获取营销目标客户信息。本项目是亚信科技 BDX 部门的一项业务,由多人合作完成, 本人主要负责标签部分,包括用户画像和用户标签设计及标签规则的设计和实现等。

1。2 国内外研究现状

1。2。1 运营商营销渠道

1。2。2 Hadoop 框架研究现状

1。3 本文研究的主要内容

本次课题是亚信科技有限公司(南京分公司)和江苏电信合作的项目,目的是利用电信 用户的 dpi 上网数据获取用户基本信息及用户喜好等,从而建立一个房地产相关的江苏电信 标签管理系统。通过用户画像的建立,对用户信息进行多维度的挖掘,所得的各项指标、标 签,可供房地产开发商或服务商在客户交际圈分析、客户价值分析和客户购房意愿评估等环 节使用,最终达到获取营销目标客户信息的目的。

上一篇:MATLAB基于稀疏表示的人脸识别算法实现
下一篇:基于ONE仿真平台的DTN网络路由协议分析研究

基于Apriori算法的电影推荐

资料:中國互联网发展现状分析【2114字】

电视进军互联网【2414字】

浅谈互联网的发展与隐私权保护【1640字】

互联网文化与电视文化的...

中國互联网发展现状分析【2360字】

互联网农业”背景下的电...

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

LiMn1-xFexPO4正极材料合成及充放电性能研究