表清单
表序号 表名称 页码
表31 网上舆情爬取系统帖子表 12
表32 网上舆情爬取系统敏感词表 12
1 绪论
1。1 课题背景及研究意义
1。1。1课题背景
随着计算机技术的应用和发展,网络已经普及到千家万户,人们越来越习惯于在网络上发表自己的看法、观点等,网络舆情也随之迅速兴起。由于每个人的观点和看法不同,所以网络舆情呈现了多样化的趋势,同时网络舆情也越来越复杂,更加难以控制。
随着网上舆情的深入发展,需要一定的舆情监控措施。为了更加方便的监控网络舆情,进行正确的舆论导向,网上舆情爬取系统的开发迫切需要。
1。1。2研究意义
网上舆情爬取系统的意义重大,主要有经济、文化和技术三方面的意义。从经济层面来看,本系统可以将爬取的数据进行整理分析,通过大量的数据洞察人们的需求,从而产生经济效益。从文化层面来看,通过爬取网上的舆情信息,国家可以进行正确的舆论导向,弘扬正确的文化观,对推动建设文化强国有一定的意义。从技术层面来看,本系统可以为爬取网络其他资源提供有效的示范作用,对于科学、合理的利用网络资源意义重大。
1。2 开发工具的选择及语言介绍
1。2。1 Python简介
Python[1]是解释性的语言,具有强大的面向对象的特征。Python有两个较为显著的特点:简洁性和粘合性。
首先介绍Python语言的简洁性,除了强制制表符以外,Python的语法规范十分人性化,简洁清晰,一目了然,没有很多冗余的语法规则,方便新手很容易入门,这也是Python语言的一大优势。
其次介绍Python语言的粘合性,Python语言可以结合其他语言的模块,比如MATLAB在建模方面非常出色,当Python生成了主要程序后,MATLAB可以进行建模操作,然后打包成一个扩展库,Python直接调用该库即可,这体现了Python语言的强大的粘合性,这也是Python语言被称为“胶水语言”的原因。文献综述
1。2。2 MySQL数据库简介
MySQL[2]是一种关系型的数据库管理系统,在当今众多数据库中,MySQL数据库的影响力仍是独一无二的,MySQL的优势表现在其性能的优越,同时磁盘占用率低和出色的稳定性也是MySQL傲视群雄的一个重要的原因。MySQL结构图如图11所示。
MySQL结构图
1。2。3 开发工具及运行环境
操作系统:Microsoft Windows 10
开发环境:PyCharm[3]5。0。4,WampServer[4]2。5
数据库:MySQL 5。6。17
1。3 本文的主要内容和组织结构
本文主要大致介绍了网上舆情爬取系统的背景、研究意义、开发语言以及开发工具等。
本系统能够有效的爬取网络资源,首先选取了一个网站作为样例,通过Scrapy框架爬取了帖子的相关信息,其中包括发帖人(postMan)、发帖时间(firstTime)、帖子标题(title)、帖子内容(content)、帖子链接(link)、阅读数量(readCount)和回复数量(replyCount),将爬取的信息存放至数据库。前台使用了Flask框架进行展示。用户可以直观的看到帖子的相关信息,可以通过图表来深入了解舆情动向,还可以通过搜索以及添加敏感词来查找自己感兴趣的舆论。
本文的章节内容安排如下:
第1章:绪论。主要详细描述了本系统的背景、意义、开发语言的选用及介绍、开发工具的选用,同时介绍了本系统的主要贡献和研究内容。