信息的价值可以理解为以下三层含义:一是信息热点度。信息热点度通常是一些热点话题,在当时或非常有吸引力的信息,由于很多人对他进行了推荐或者好评,这些信息的影响是非常大的,扩散速度也很快。二是信息的内容与用户的吻合度。用户在发布日志或状态时,可以添加一个标题,发布或添加的内容“关键字”。其他用户可以在前向过程中添加关键字,根据关键字的含义,用户可以选择自己的兴趣来适应内容的关注或转发。三是用户的影响,一方面用户的影响力取决于用户的身份,也取决于网络用户和好友。明星,名人,例如,一些企业与新浪微博推出自己的公众账号,这些公众人物发布的状态信息,如图片,视频,并能够打电话给朋友关注的事件,或参加活动。
1。3 系统开发工具简介
1。3。1 tomcat 简介
Tomcat 服务器是Web 应用服务器。常见的web服务器有:IBM公司的WebSphere,BEA公司的WebLogic等,而这个系统所用的web服务器Tomcat就是其中的一种,免费并且微小。此服务器中一部分是Apache的扩展,但是当我们运行时,它作为一个独立的进程单独运行。此外,Tomcat的扩展性好,运行时占用资源少,且在不断改进完善中,所以很受大众欢迎。
1。3。2 MySQL简介
数据库管理系统有:IBM的DB2系统,大部分公司正在使用的Oracle系统,专门为Unix等系统的Informix系统以及Sybase等。而MySQL就是我们常见的,当前最流行的关系数据库管理系统。如今,该管理系统因其简单易学,功能强,成本低,速度快,开放源码而广泛的被运用与中小型网站中。
1。3。3 Intellij ide简介
IntelliJ IDEA,是java语言开发的集成环境,是最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、各类版本工具(git、svn、github等)、JUnit、CVS整合、代码分析、 创新的GUI设计等方面的功能可以说是超常的。它的旗舰版本还支持HTML,CSS,PHP,MySQL,Python等。免费版只支持Java等极少数语言。
1。4 开发环境简介
操作系统:Windows 7
数据库:MySQL
开发工具:Intellij ide
开发语言:Java 语言
2 系统的分析与设计
2。1 概要分析
本毕业设计是社交网络数据抓取系统的设计与实现。该系统设计主要是为了研究社会热点以及用户偏好(评论)。根据需求分析,可以通过搜索关键字进行相关数据内容的抓取,并获得用户者基本信息(用户名,用户ID,头像等等)以及相关评论。现将预计实现的功能列举如下:
1。抓取相关数据内容(新闻,话题等具体内容)
2。获取新闻标题(非关键字)
3。获取用户名,ID,头像
4。爬取浏览量,发布时间,相关新闻及话题评论
5。把以上抓取数据存储到数据库中
6。将最新的爬取数据显示在界面中
7。设计时间间隔定时爬取
2。2 功能需求分析
根据系统功能的需求,具体的系统分为如下需求点:
1。抓取新浪微博,天涯论坛站点帖子数据
(1)能够抓取到具体的微博/论坛帖子数据
(2)帖子标题/内容包含所需抓取的关键字
2。对数据进行正确的解析处理
将最新的抓取数据:微博/论坛的具体内容,发布时间,评论以及用户信息等显示在界
面中。
3。对抓取的数据进行存储
能够将最新获取的微博/论坛内容存入:article表,回复信息存入:article_reply表。