3.3 模拟登陆 18
3.4 页面爬取 22
3.5 内容提取 23
3.6 内容存储 26
4 问题及解决方案 26
4.1 中文显示乱码 26
4.2 文字内标签 26
4.3 访问限制 27
结 论 28
展望 29
致 谢 30
参 考 文 献 31
引言(或绪论)
1.1 研究背景和意义
如今的互联网已经进入了社会媒体(social media)时代,比如 BBS、电商网站、 新浪微博等。而新浪微博毫无疑问领跑着整个社交媒体领域。2014 年 4 月 17 日,新 浪微博正式登陆纳斯达克,成为全球范围内首家上市的中文社交媒体。微博首日收盘, 股价大涨 3.24 美元至 20.24 美元,涨幅达 19.06%。新浪微博成功上市,再一次证明 了微博的独特价值,也将进一步表明在社交媒体领域中,微博的地位不可撼动。新浪 微博是一款为大众提供娱乐休闲的平台,人们可以通过微博相互交流分享信息,现如 今也是媒体监控和跟踪突发消息的重要来源之一,是某种意义上“永不闭幕的新闻发 布会”。截止 2014 年 3 月,微博月活跃用户 1.438 亿,日活跃用户 6660 万,如此庞 大的用户群体,支撑着新浪微博在社交媒体的龙头地位。论文网
在新浪微博中,网友无论什么时候想发布心情,分享喜悦都可以通过移动端、PC 端、第三方应用等多种手段实现,并且分享的状态能被粉丝立即看到并分享,实现裂 变传播。在这种情况下,微博文本信息亦呈现爆炸式增长,特别是在传播公共信息方 面,几乎以实时的传播速率迅速引爆整个网络。基于微博的分享转发的裂变传播机制, 微博拥有的数据是庞大的,同时也是碎片化的。香港大学新闻及传媒研究中心做了一 项关于微博的研究,助理教授傅景华认为新浪微博上大约有 1000 万用户创造了该平 台上 94%的信息,约 2 亿用户大多时候仅仅只是转发分享,并不做其他事情。
微博信息中含有重大的新闻话题事件,包含大量的社会热点信息。人们在微博上 发表大量包含自己主观情感的文本信息,表达自己对某一热点事件的观点看法。每个 人都有自己独立地人格,独立思考有自己的意见,特别是在微博拥有如此庞大的用户 群的情况下,对待某一事件的观点看法充斥着各种各样不同的声音,如何从这些噪杂 的声音中找到人们最核心的思想和内心的诉求对政府的发展能在一定程度上起到辅 助作用。近年来随着微博的火热,研究开发人员开始针对微博作分析研究。基于微博 数据,可以进行用户偏好分析、趋势话题分析、用户关系网络挖掘、情感分析、热点 统计、舆情分析等研究工作。微博数据如果能够被真正利用起来,那产生的价值是巨 大的,无法估量的。
然而,微博对待这些凌乱碎片化的数据是不完全开放。这些有价值的数据不方便 研究人员获取,研究界长期苦不堪言,从而导致了大量资源的浪费。微博这些负荷严