微博研究现状在过去的 20 年里,互联网先后经历了门户网站、web2.0 时代,如今已经迈入社 会化网络时代。在互联网的浪潮中,社交媒体从中脱颖而出,成为其中翘楚,享 受互联网的世界变革带来的福利。在国外,人们主要集中把目光停留在 Twitter 上实 现对微博的相关研究。有些文章主要就微博的群体沟通和项目协调功能等微博的拓展 功能方面提出需要改进[1],也有人指出希望 twitter 能提供一种社会化的视频体验 (social video experiences),比如将微博与电视紧密结合[2]。在 CMU Researchers Analyse Twitter Sentiments 一文中,作者提出可以将 twitter 应用到选举中,监测 网民在 twitter 中的发言的支持或反对等维度,统计结果从而反映网民对竞选的态度。 同样的,还有 Thomas Roach 认为可以利用 twitter 在相关领域进行广告的定点投放, 这些可以通过对特定主题词进行监控来了解[3]。Cynthia Chew 等人则认为 Twitter 可 以作为官方和民众交流的平台,官方可以发布信息,民众可以表达自己的观点意见。 卫生部门可以利用 twitter 的即时内容分析和知识传播研究更好地反馈公众关注[4]。 San Jose 研究了 Twitter 社交网络的地理和拓扑属性,对用户的倾向性和联系方式进 行分析[5]。68478
在国内对微博的研究主要集中用户偏好分析、趋势话题分析、用户关系网络挖掘、 情感分析、热点统计、舆情分析等方面。主要研究成果有:2011 年张岚岚以信号分析 框架为基础,通过舆情获取、舆情发现和舆情分析,主要针对给定主题的微博文本的 情感倾向性进行分析,主要运用爬虫抓取、文本聚类、定量分析等方法,采用 k-means
算法来研究分析[6]。2012 年李劲、李华、吴浩雄、向军提出并实现了基于话题空间模 型的热点挖掘算法和系统原型,从海量微博信息中挖掘热点话题进行研究[7]。2013 年 永杰采用“点-线-面”三位一体相结合、从理论到实际,由直接分析到间接关系挖 掘的思路对微博用户关系和网络整体结构进行分析[8];论文网
2 爬虫研究现状
网络爬虫即 Spider,跟随网络出现而应运而生。1993 年,第一个网络爬虫即 Matthew Gray 的 Wanderer 初露头角。国际万维网的前两届会议上开始有了介绍网络 爬虫的相关文献[9-11],但那时没有现在面临的互联网内海量数据内容,整个技术涉及面 相对狭窄。在一个商业竞争激烈的社会,成熟的网络爬虫技术并没被公开,Google Crawler、Internet Crawler 以及 Mercator 例外。
Fish Search 是 De Bra 等人提出的采用深度优先算法搜索相关页面,并用关键词 和短语判断页面的相关性[12]。Hersovic 在 Fish 系统的基础之上引入了新的搜索策略, 即引入“鲨鱼”算法,同时采用向量空间模型计算页面相似度[13]。1999 年 Jon Kleinberg 针对链接的 Authority 和 Hub 策略,重新定义其意义,对每个访问过的页面计算权重, 决定爬取顺序[14]。1999 年,Renie 和 McCallum 则采用未来回报值得概念,利用巩固 学习法预测和选择未来回报值最大的链接[15]。