基于文本分析的敏感网页识别舆情分析数据挖掘(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于文本分析的敏感网页识别舆情分析数据挖掘(2)


5.1 总结    31
5.2 展望    31
致  谢    32
参考文献    33
第一章 绪论
1.1 引言
据“中国互联网络发展状况统计报告”中国互联网络信息中心发布的2013年1月的数据显示, 2012年12月底,中国网民规模达到564亿人,全年共新用户互联网5090人,互联网普及率为42.1 %,同比上升3.8个百分点至2011年底,互联网普及率的速度稳步增长。规模网络反映了财富在2012年互联网的内容。中国网民增加了一倍的互联网普及率在中国的42.1 %,达到4.2亿手机用户。三月21,2012的速度,腾讯已出版最新数据显示,互联网用户数的QQ的最高指挥官达到1.674亿。和互联网应用,生存模式已经深深地树在人们的日常生活中。如果对互联网的监管信息,警告在网络上及时的敏感信息已成为一个严重的问题。早在2009年,温家宝总理已成立了中国政府的网络,在接受新华社记者,大多数在线交流的用户的联合采访。胡锦涛同志视察人民日报说:“互联网已经成为一个集散地和社会舆论的放大器的思想和文化信息,我们要了解互联网对社会的影响为代表的新媒体,重视互联网的建设非常重要,合理使用,加强管理”总在中央校开幕式期间隙,也说:为了提高应对媒体,尊重新闻媒体的传播能力,正确引导社会舆论,自觉接受舆论监督 。中国政府微博研究报告的统计数据。显示:日期为2011年3月20日,中国有超过2,400微博的政府用户。该报告还指出,“微博施政”已成为政府信息化的新趋势。现在,越来越多的地方官员,发展互联网的习惯,重视公众重视在互联网上,政府权力大大改善了艺术,舆论进一步拓展渠道,人们可以看到,国家政府和重点网络媒体的领导者。
1.2 研究背景
随着互联网技术的迅猛发展,信息交换和传播的方式也越来越多样化,网站数量和存在于互联网上的网页数信息数迅速增长,以及电子政务和电子商务的广泛开展,对于网络信息监管部门来说,需要及时获知网络上的敏感信息以及传播速度的增长趋势。“舆情分析”是针对网络信息监管部门需求开发的一种网络信息审查系统,可以对指定网站上的文本信息进行获取和分析。本系统的研究是在网络中各网站的众多信息中辨别出公共信息,以进行相应的敏感信息匹配和分类预警分析。
互联网的发展异常迅猛,网站间的信息传播更加频繁,给人们的学习、工作、生活等方面带来越来越多的便利,但是互联网的高速发展也给人们的生活带来了不少冲击和影响。其中最令人担忧的问题就是敏感信息的恶性传播和泄露。因此需要一种信息审查机制来及时获知信息的恶性传播和泄露情况。
相比较网络上已面世的同类型系统,本课题与其最大的区别在于对网络上敏感信息的浏览量及传播趋势达到一定程度时,系统将会对此信息进行预警分析。同类型的某些系统对网络信息的分类预警分析仅仅以文字形式表示,而本课题研究的系统将会以文字、表格与趋势图结合的形式体现。
舆情分析的出现将会使网络信息监管部门或各类企事业单位及个人对网络上的敏感信息或与企事业本身相关的信息及网民的思想多了一些了解,以便对某些信息的处理方案进行更改或对某些信息的恶性传播和泄露进行预防与处理。对网站敏感信息的分类也方便了网民对各类信息的了解。
1.3 国内外研究现状
    1.3.1 国外研究现状
    1.3.2 国内研究现状
1.4 论文的研究内容
1、查阅资料,明确研究内容及具体任务,深入理解和掌握自动智能搜索引擎和挖掘推理和爬虫技术,快速实现网络敏感消息集成,并对其进行相应的特点和性能分析。搜索引擎应当要是典型网站20个或20个以上,如新浪、百度、和搜狐等站点。应用挖掘推理和爬虫技术对各个网站的敏感信息进行集成,并对各信息进行分类。 (责任编辑:qin)