微博爬虫在一段时间前就因为其显著的效益成为国内各机构研究的方向,如文献[1]中提到调用微博API并解析JSON的爬取方式,这种爬取方式稳定可靠,编写容易,但是微博API的每天调用次数有限,不可能进行大规模的爬取。78636

文献[2]中提到了使用分布式技术,能使微博爬虫具有扩展性好,适应性强,任务分配明确的优点,但是也使用了微博API进行爬取,规模不能扩展。

也有文献[3]提到使用NoSQL数据库进行数据存储,本系统也使用了NoSQL数据库。其中提到使用Hadoop组织微博的爬取工作,是一个优秀的MapReduce开源框架,但是对于微博爬虫这样的网络IO为主的操作,Hadoop本身并不适合,而且Hadoop框架本身过重。

突发事件检测方面,文献[4][5]提出了基于突发词聚类的突发事件检测算法。文献[6]提出了基于情感的突发事件检测算法,文献[7]介绍了基于潜在语义分析的突发事件检测算法。而文献[8]则提出了基于小波变换和SVM的突发事件检测算法。

参考文献

[1]廉捷, 周欣, 曹伟, 等。 新浪微博数据挖掘方案[J]。 清华大学学报: 自然科学版, 2011, 51(10): 1300-1305。

[2]陈舜华, 王晓彤, 郝志峰, 等。 基于微博 API 的分布式抓取技术[J]。 电信科学, 2013, 29(8): 146-150。

[3]罗一纾。 微博爬虫的相关技术研究 [D]。 哈尔滨工业大学, 2013。

[4]王勇, 肖诗斌, 郭跇秀, 等。 中文微博突发事件检测研究[J]。 现代图书情报技术, 2013, 29(2): 57-62。

[5]郭跇秀, 吕学强, 李卓。 基于突发词聚类的微博突发事件检测方法[J]。 计算机应用, 2014, 34(2): 486-490。

[6]张鲁民, 贾焰, 周斌。 基于情感计算的微博突发事件检测方法研究[J]。 信息网络安全, 2012 (8): 143-145。

[7]童薇, 陈威, 孟小峰。 EDM: 高效的微博事件检测算法[J]。 计算机科学与探索, 2012, 6(12): 1076-1086。

[8]裴瑞平, 梁新荣, 刘智勇。 基于小波变换和 LS—SVM 的事件检测算法[J]。 计算机工程与应用, 2007, 43(1): 229-231。

[9]Leach P J, Mealling M, Salz R。 A universally unique identifier (uuid) urn namespace[J]。 2005。

[10]Fielding R, Gettys J, Mogul J, et al。 Hypertext transfer protocol--HTTP/1。1[J]。 1999。

[11]Turing A, Braithwaite R, Jefferson G, et al。 Can automatic calculating machines be said to think?(1952)[J]。 B。 Jack Copeland, 2004: 487。

[12]O’Neil P, Cheng E, Gawlick D, et al。 The log-structured merge-tree (LSM-tree)[J]。 Acta Informatica, 1996, 33(4): 351-385。

[13]Rosenblum M, Ousterhout J K。 The design and implementation of a log-structured file system[J]。 ACM Transactions on Computer Systems (TOCS), 1992, 10(1): 26-52。

[14]Turian J, Ratinov L, Bengio Y。 Word representations: a simple and general method for semi-supervised learning[C]//Proceedings of the 48th annual meeting of the association for computational linguistics。 Association for Computational Linguistics, 2010: 384-394。

[15]Gupta C, Grossman R L。 GenIc: A Single-Pass Generalized Incremental Algorithm for Clustering[C]//SDM。 2004: 147-153。


上一篇:静态图像的偏色检测和校正研究现状及发展趋势
下一篇:大数据测试国内外研究现状和参考文献

微博成瘾国内外研究现状和发展趋势

分布式存储系统研究现状和参考文献

政务微博问政国内外研究现状

网络爬虫国内外研究现状综述

分布式发电的研究现状和发展趋势

百度网盘爬虫的研究现状

船舶分布式控制国内外研究现状及存在的问题

安康汉江网讯

LiMn1-xFexPO4正极材料合成及充放电性能研究

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

新課改下小學语文洧效阅...

互联网教育”变革路径研究进展【7972字】