Jsoup微博关系图的研究与实现(3)
时间:2018-08-09 16:51 来源:毕业论文 作者:毕业论文 点击:次
(2) 有关于用户特征的分析,杨小朋、何跃通过Spearman和Pearson研究得出的相关系数,分别来对一个博文的听众的数量以及收藏该博文的人数、博文魅力指数等变量进行分析,通过K-Means聚类算法对选定的微博用户的听众人数和微博的魅力指数进行聚类分析,提出“博文魅力指数”概念,结果表明:当博文魅力指数增长时,收藏博文人数也相应增长,由此可知这两个变量正相关;实验分析得出的聚类报告将微博的用户分为三种类型:信息获取型、草根名人型、普通社交型。何黎、孙何跃等人通过挖掘包括核心用户在内的行为特征,以及针对微博用户的相关信息以及关系结构数据进行了三种类型的分析:它们分别是相关性、关联性原则和决策树规则,结果表明:微博中的名人明星用户的粉丝数量大,但是收听关注的人数数量少的特征;微博用户为了提升自己的被关注度,通常采取两种措施:积极关注其他微博用户以及积极发布博文。而且研究得出两种不同性格的用户的微博习惯:如果微博用户愿意公布性别或者自身相关信息,那么他们通常会发布博文,而如果微博用户不愿意公布自己的性别或者自身相关信息,那么他们一般来说就不愿意发布博文。 基于以上的研究成果,本文的数据源从新浪微博当中抓取,通过新浪开放平台API接口以及java运行环境,使用d3.js绘图,用javaweb最基本的servlet+jsp tomcat7.0 ,用Jsoup 模拟登陆,插入登录的cookie,并模拟提交以获得return的authorize code,从而输出微博关系图,读取微博用户的相关数据,并对微博用户关系分析和研究。 1.4 本文组织结构 本文总共分为5章,分别如下: 第1章:绪论。本章主要介绍微博关系的背景以及国内外的研究成果,并从然后介绍一下本文的组织结构。 第2章:关于微博关系的研究和实现的方法和微博用户关系分析的原理和基本方法。 第3章:新浪微博开放平台的简介、使用和数据抓取的方法。 第4章:需求分析与设计方案。本章主要对系统的需求进行分析,并对系统的框架、模块进行了分析与设计。 第5章:系统实现。本章主要从各个模块的原理流程进行研究得出系统的具体实现。 第6章:系统测试。本章主要对系统的功能进行测试。 2 基本原理 2.1 研究方法 数据图形化的基本思想是用单个元素来表示数据库里的每个项或者一个节点数据,大量的数据就可以帮助我们组成数据图像,并且可以将这些数据的属性值以多个角度进行展示,然后还能从不同的角度来处理数据,从而更深入的分析和处理这些数据。 数据图形化主要是借助图形化的手段,可以简单明了的传达和交流信息;为了可以高效的表达思想概念,美学形式和功能需求者两个功能,可以通过直观的方式高效的表达重要的信息和特点,从而实现对于稀疏又复杂的数据进行深入的研究。 (责任编辑:qin) |