结 论 20
致 谢 21
参考文献22
附录A 门户新闻网站网页模板集 23
1 引言
1.1 研究背景及意义
近年来,随着信息技术与互联网工业的飞速发展,越来越多的社会成员借助门类繁多的网络终端——个人电脑、智能手机、穿戴设备——加入到信息社会的日常生活中,他们是互联网信息的生产者、阅读者、传播者,以井喷的方式丰富这片信息的海洋。据中国互联网络信息中心(CNNIC)发布的《第35次中国互联网络发展状况统计报告》称:截至2014年12月,我国网民规模达6.49亿,全年共计新增网民3117万人,互联网普及率为47.9%,较2013年底提升了2.1个百分点。但报告同时指出,2014年中国网页数量已搭1899亿个,年增长26.6%;其中静态网页数量为1127亿,占网页总数量的59.36%;动态网页数量为772亿,占网页总量的40.64% [1]。面对更新迅速、门类繁多、数量巨大的网页信息,普通的网络参与者在有效的时间内获取所需要的信息变得愈发困难,更谈不上从全局高度把握这些信息在时间线上来龙去脉与未来趋势。同时对舆情监督者来说,在资讯海洋中及时准确地发现人们所关心的话题与群众情绪的走向,已经成为一项非常有现实意义的研究。
虽然国内一些大型的门户网站经常会对备受大众关注的热点新闻整理相应的新闻专题报道,现阶段这些专题主要还是通过人工编辑筛选生成的。这种方式不能满足大众对新闻热点的实时性要求,同时存在主观性倾向、选择性编辑等非客观问题,且忽视了参与新闻评论的读者对舆论趋势的影响。因此,高效精准地获取当下的新闻热点并分析话题的舆论走向,已经成为了亿万网民的切实需求。
新闻热点发现与舆情分析技术由此应运而生,它满足了网络用户对快速找出互联网中有及时价值新闻信息的渴望,并将这些新闻事件按相似程度进行聚类,同时对其他用户在新闻中产生的互动评论进行分析。通过对最后获取到的数据进行排序、整理、数值统计,我们就能从时间线上获得一个新闻时间连续发展且考虑舆论趋势的全貌。这样我们就能以较小的代价和较快的速度来了解网络时事的演化、发展、结束,同时能进一步分析出具有商业或者社会意义的用户信息。可以说,这种技术能帮助我们更好的理解社会。
新闻热点发现与舆情分析技术能使更多的网民从信息的获取者转变为信息的分析者、传播者甚至生产者,这是符合“开放、平等、协作、分享”的互联网精神的。从另一角度来看,对于门户网站这类信息的提供者抑或是政府等信息监管者,新闻热点发现与舆情分析技术的研究可以有效得出网民在社会舆论热点的目光迁移路径,分析用户行为的实时变化。
1.2 国内外相关研究
1.3 论文的主要工作及组织结构
综上所述,近年来相关的技术都得到了系统性的发展,这也为我们实现这项任务提供了先决条件。当前出现的众多新闻热点分析或是舆情整合的相关工作大多着眼于这项工程的某一具体环节,且很多研究成果在停留在理论阶段,在实际中的使用并不成熟。本文从此出发,利用现有的网络技术,例如Scrapy框架网页抓取、网页文本提取、文本聚类、文本情感分析,较为完整的实现了整个新闻热点发现与舆情分析的整个流程。本文的工作主要包括了:
(1) 基于开源爬虫系统Scrapy设计实现基于python的多门户新闻及评论实时网络爬虫系统;
(2) 分析门户网站的通用信息组织结构与信息获取方法; 基于门户网站的新闻热点发现与舆情分析技术(2):http://www.youerw.com/yanjiu/lunwen_21067.html