1.1.2 新浪微博社交网络的发展现状
社交网络目前呈现行业规模变大,集中经营。社交网络的市场规模急剧增长,在新浪微博以后,各种社交网络更是层出不穷,而且发展迅速。随着现在移动设备的快速发展,社交网络与移动互联网的结合更是方便了我们的需求,可以做到随时随地分享和创造内容。中国的社交网络市场竞争异常激烈,更重要的是社交网络平台与商业系统相融,帮助商业集团内部员工可以更好的交流。并且商业集团也可以通过社交网络平台来宣传企业文化。在技术层面上,社交网络将会走向“视觉化”,图片已经代替文字成为了当今社交网络的主体,未来的社交网络发展将会像音频化和视频化迈进。而在未来的社交网络发展中,可以继续探索新的商业模式,以后的趋势很可能就是跟商业集团联合运营。图1便是目前主流的社交网络不断变化的图片。社交网络软件将会成为新一轮的互联网经济增长点。
1.2 主要研究内容
要想得到最后数据的统计特征分析,我们首先需要进行社交网络数据的获取、还有社交网络数据的预处理。我们可以通过两种方式来获取社交网络的数据,一是社交网络平台所提供的API获取。二是可以通过网络爬虫爬取。如果社交网络平台如果没有提供API获取的话,我们就只能通过爬虫爬取。社交网络平台提供的API可以根据这两种方式的获取速度还有数据库来决定。而社交网络数据的预处理中,我们需要整理出新浪微博的大量文献。总结出我们需要获取的有用的数据信息,而爬虫的数据获取则需要登陆新浪微博中在网页中寻找有效的数据信息,过滤掉没用的信息,而且还能进行规范化,做到统一有序。社交网络中提供的API更是能从社交网络提供的数据格式中获取到有用的数据信息,进行规范化。
对于社交网络的有效存储。必须做到这两个要求,第一个就是需要特别大的数据库量。第二个就是有相当迅速的检索查询功能,后面的工作我们可以考虑运用Hadoop来存储数据,还有Hadoop性能的优化,优化需要安装优化、还有日志设置优化还有存储引擎的优化等等。
新浪微博社交网络数据的特征分析我们需要通过MATLAB来实现,MATLAB用于算法开发、数据可视化、以及我们所需要的数据分析还有数值计算的高级技术计算语言和交互式环境。我们可以将获取的数据通过MATLAB来进行数据分析。
1.3 论文主要组织结构
本论文我一共分为四章,第一章具体介绍了新浪微博社交网络的特点以及新浪社交网络的发展趋势及现状,然后介绍了我们主要的研究内容。第二章将会首先介绍我们新浪微博社交网络数据的获取原理。然后分析网络数据获取技术,一并介绍了OAUTH协议。并根据新浪微博设计了相应数据获取方案,最后通过设计的方案完成了新浪微博社交网络数据的获取。第三章我们将会通过MATLAB来得到大量数据的特征分析。第四章我们对本文进行了大致的总结,会对新浪微博社交网络数据的获取与统计特征分析这个研究进行系统总结。并总结出自己的不足和展望未来要做的工作并完善自己。
2.新浪微博社交网络数据的获取
2.1 本章简介
在本章中首先会先介绍网络数据获取的原理和爬虫工作方式的原理,网络数据的获取分为两个方面,介绍了两个方面最关键的技术。然后介绍了网络数据获取的技术以及设计方案。并通过针对社交网络的爬虫系统针对新浪微博网络爬虫的详细设计与开发。最后通过网络数据获取的设计方案获取数据。
2.2社交网络数据获取的原理
社交网络的数据一共有两个方面,第一个是通过查询才能由服务器动态生成并返回的信息资源。第二个是登陆后才能查看的专有的信息资源,下图显示了爬虫的工作方式。 MATLAB新浪微博社交网络数据的获取与统计特征分析(2):http://www.youerw.com/jisuanji/lunwen_36830.html