毕业论文

打赏
当前位置: 毕业论文 > 研究现状 >

微博爬虫分布式技术国内外研究现状

时间:2022-03-06 11:41来源:毕业论文
微博爬虫在一段时间前就因为其显著的效益成为国内各机构研究的方向,如文献[1]中提到调用微博API并解析JSON的爬取方式,这种爬取方式稳定可靠,编写容易,但是微博API的每天调用次

微博爬虫在一段时间前就因为其显著的效益成为国内各机构研究的方向,如文献[1]中提到调用微博API并解析JSON的爬取方式,这种爬取方式稳定可靠,编写容易,但是微博API的每天调用次数有限,不可能进行大规模的爬取。78636

文献[2]中提到了使用分布式技术,能使微博爬虫具有扩展性好,适应性强,任务分配明确的优点,但是也使用了微博API进行爬取,规模不能扩展。

也有文献[3]提到使用NoSQL数据库进行数据存储,本系统也使用了NoSQL数据库。其中提到使用Hadoop组织微博的爬取工作,是一个优秀的MapReduce开源框架,但是对于微博爬虫这样的网络IO为主的操作,Hadoop本身并不适合,而且Hadoop框架本身过重。

突发事件检测方面,文献[4][5]提出了基于突发词聚类的突发事件检测算法。文献[6]提出了基于情感的突发事件检测算法,文献[7]介绍了基于潜在语义分析的突发事件检测算法。而文献[8]则提出了基于小波变换和SVM的突发事件检测算法。

参考文献

[1]廉捷, 周欣, 曹伟, 等。 新浪微博数据挖掘方案[J]。 清华大学学报: 自然科学版, 2011, 51(10): 1300-1305。

[2]陈舜华, 王晓彤, 郝志峰, 等。 基于微博 API 的分布式抓取技术[J]。 电信科学, 2013, 29(8): 146-150。

[3]罗一纾。 微博爬虫的相关技术研究 [D]。 哈尔滨工业大学, 2013。

[4]王勇, 肖诗斌, 郭跇秀, 等。 中文微博突发事件检测研究[J]。 现代图书情报技术, 2013, 29(2): 57-62。

[5]郭跇秀, 吕学强, 李卓。 基于突发词聚类的微博突发事件检测方法[J]。 计算机应用, 2014, 34(2): 486-490。

[6]张鲁民, 贾焰, 周斌。 基于情感计算的微博突发事件检测方法研究[J]。 信息网络安全, 2012 (8): 143-145。

[7]童薇, 陈威, 孟小峰。 EDM: 高效的微博事件检测算法[J]。 计算机科学与探索, 2012, 6(12): 1076-1086。

[8]裴瑞平, 梁新荣, 刘智勇。 基于小波变换和 LS—SVM 的事件检测算法[J]。 计算机工程与应用, 2007, 43(1): 229-231。

[9]Leach P J, Mealling M, Salz R。 A universally unique identifier (uuid) urn namespace[J]。 2005。

[10]Fielding R, Gettys J, Mogul J, et al。 Hypertext transfer protocol--HTTP/1。1[J]。 1999。

[11]Turing A, Braithwaite R, Jefferson G, et al。 Can automatic calculating machines be said to think?(1952)[J]。 B。 Jack Copeland, 2004: 487。

[12]O’Neil P, Cheng E, Gawlick D, et al。 The log-structured merge-tree (LSM-tree)[J]。 Acta Informatica, 1996, 33(4): 351-385。

[13]Rosenblum M, Ousterhout J K。 The design and implementation of a log-structured file system[J]。 ACM Transactions on Computer Systems (TOCS), 1992, 10(1): 26-52。

[14]Turian J, Ratinov L, Bengio Y。 Word representations: a simple and general method for semi-supervised learning[C]//Proceedings of the 48th annual meeting of the association for computational linguistics。 Association for Computational Linguistics, 2010: 384-394。

[15]Gupta C, Grossman R L。 GenIc: A Single-Pass Generalized Incremental Algorithm for Clustering[C]//SDM。 2004: 147-153。


微博爬虫分布式技术国内外研究现状:http://www.youerw.com/yanjiu/lunwen_90680.html
------分隔线----------------------------
推荐内容