基于文本分析的敏感网页识别舆情分析数据挖掘(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于文本分析的敏感网页识别舆情分析数据挖掘(3)


2、熟悉网络敏感消息传播关系超连接技术和高速搜索引擎、爬虫获取等技术,以及各个组成模块和工作原理,设计灵活的获取功能模块应用。主要了解某条敏感信息的具体情况,有哪些网站有关于这条敏感信息的消息,各网站之间对于此信息的传播情况以及浏览量等情况。                         
3、掌握基本软件工具使用,利用高级软件实现较为完整的动态链接库设计和分类保存,以及灵活的调用组合使用。本系统采用Myeclipse平台的集成开发环境开发,分为消息采集、构建模型和识别三个模块。
4、先独立完成各网站的消息模块的获取和分析设计内容,再集成一个整体的仿真程序软件包。20个典型网站的信息按一定的分类模块进行获取和分析,分类可按照政治类、经济类、文艺类、科技类等。再将所有的网站关于某信息的情况进行汇总比较,并以表格或趋势图等表示,表格可以显示的是信息名称、发表日期、浏览量等,趋势图可以显示的是各网站关于某一信息的浏览量趋势,或是所有网站在某时间段内关于此信息的浏览量比较;对敏感信息进行预警分析,分析的是某一敏感信息的浏览量超过某一标准,以提示的方式进行预警。
5、认真总结毕业设计内容,详细写好毕业设计报告,提交毕业论文和系统软件资料,以及外文翻译材料
1.5 论文的结构安排
论文一共分为五大部分。首先是绪论,重点介绍研究的背景以及国内外的研究现状;第二章是系统设计分析,阐述了相关的基本概念、网络敏感信息特点、系统的作用等;第三章介绍系统开发的关键技术;第三章是系统的设计与实现;第五章总结与展望。
第二章 系统设计分析
    2.1 网站敏感信息基本概念
在互联网网站敏感信息表达和传播的各种不同的情感,态度和信念转变总和,它来源于现实。网络舆情是公众信息的人在互联网上传播和释放能够反映民意,文本,图像,音频和视频,最常见的基于文本的形式。今天,信息和观点的互动传播速度非常快,快,民意表达也与网络多元化的利益。如果没有正确的引导,信息网络将是负面的快速扩散,这会对一般公众安全构成威胁。因此,监管部门应加强对敏感信息进行实时监控的网络,正确引导,并及时清除负面信息网络,文护社会稳定,促进发展健康的国家意义。
    2.2 网络敏感信息特点
由于互联网具有开放性、自由性、多样性和虚拟性等多种特性,因此网络敏感信息具备了以下特点:第一直接性。网络是对所有用户开放的,任何人都可以随时随地的发布自己的信息。由于互联网操作方便使得用户可以通过复制粘贴的方式将信息进行重新传播,使得影响变得无限的大;第二突发性。短时间内形成并蔓延;第三丰富性。众所周知互联网是开放的不受时间地点发布形式的限制,只要是合分的内容都可以被广泛的自由传播。第四互动性。近年来互联网的普及,使得人们在网络上面互动的机会是越来越多。
    2.3 舆情分析功能
如果你打算简单地收集和处理人工不再是可能的互联网信息构成。为了解决这个问题,以克服缺乏系统的预警分析依靠手工处理。它的主要特性包括:
1自动收集的敏感信息。目前的技术主要是基于信息聚集了很少或有限数量的输入的URL集合,通过提取链接页面下一轮信息收集和扩展到整个网络。还有一个搜索引擎技术,搜索引擎的网站是目前整个集合的网页,如百度,谷歌等之间。看来的分析通过系统模块本系统提供的整型数据,分析的目的是该系统的起始块。 (责任编辑:qin)