信息的价值可以理解为以下三层含义:一是信息热点度。信息热点度通常是一些热点话题,在当时或非常有吸引力的信息,由于很多人对他进行了推荐或者好评,这些信息的影响是非常大的,扩散速度也很快。二是信息的内容与用户的吻合度。用户在发布日志或状态时,可以添加一个标题,发布或添加的内容“关键字”。其他用户可以在前向过程中添加关键字,根据关键字的含义,用户可以选择自己的兴趣来适应内容的关注或转发。三是用户的影响,一方面用户的影响力取决于用户的身份,也取决于网络用户和好友。明星,名人,例如,一些企业与新浪微博推出自己的公众账号,这些公众人物发布的状态信息,如图片,视频,并能够打电话给朋友关注的事件,或参加活动。

1。3  系统开发工具简介

1。3。1  tomcat 简介

Tomcat 服务器是Web 应用服务器。常见的web服务器有:IBM公司的WebSphere,BEA公司的WebLogic等,而这个系统所用的web服务器Tomcat就是其中的一种,免费并且微小。此服务器中一部分是Apache的扩展,但是当我们运行时,它作为一个独立的进程单独运行。此外,Tomcat的扩展性好,运行时占用资源少,且在不断改进完善中,所以很受大众欢迎。

1。3。2  MySQL简介

数据库管理系统有:IBM的DB2系统,大部分公司正在使用的Oracle系统,专门为Unix等系统的Informix系统以及Sybase等。而MySQL就是我们常见的,当前最流行的关系数据库管理系统。如今,该管理系统因其简单易学,功能强,成本低,速度快,开放源码而广泛的被运用与中小型网站中。

1。3。3 Intellij ide简介

IntelliJ IDEA,是java语言开发的集成环境,是最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、各类版本工具(git、svn、github等)、JUnit、CVS整合、代码分析、 创新的GUI设计等方面的功能可以说是超常的。它的旗舰版本还支持HTML,CSS,PHP,MySQL,Python等。免费版只支持Java等极少数语言。

1。4 开发环境简介

操作系统:Windows  7 

数据库:MySQL

开发工具:Intellij ide

开发语言:Java  语言

2  系统的分析与设计

2。1 概要分析

本毕业设计是社交网络数据抓取系统的设计与实现。该系统设计主要是为了研究社会热点以及用户偏好(评论)。根据需求分析,可以通过搜索关键字进行相关数据内容的抓取,并获得用户者基本信息(用户名,用户ID,头像等等)以及相关评论。现将预计实现的功能列举如下:

1。抓取相关数据内容(新闻,话题等具体内容)

2。获取新闻标题(非关键字)

3。获取用户名,ID,头像

4。爬取浏览量,发布时间,相关新闻及话题评论

5。把以上抓取数据存储到数据库中

6。将最新的爬取数据显示在界面中

7。设计时间间隔定时爬取

2。2 功能需求分析

根据系统功能的需求,具体的系统分为如下需求点:

1。抓取新浪微博,天涯论坛站点帖子数据

(1)能够抓取到具体的微博/论坛帖子数据

(2)帖子标题/内容包含所需抓取的关键字

2。对数据进行正确的解析处理

  将最新的抓取数据:微博/论坛的具体内容,发布时间,评论以及用户信息等显示在界

  面中。

3。对抓取的数据进行存储

  能够将最新获取的微博/论坛内容存入:article表,回复信息存入:article_reply表。

上一篇:OpenCV+Adaboost视频中人脸马赛克处理方法研究与实现
下一篇:java+mysql酒店客房管理系统的设计+源代码

java+mysql通用试题库系统后台设计与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

网络常见故障的分类诊斷【2055字】

网络安全的研究【1797字】

网络信息安全技术管理的...

张洁小说《无字》中的女性意识

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】

我国风险投资的发展现状问题及对策分析

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

安康汉江网讯

LiMn1-xFexPO4正极材料合成及充放电性能研究

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究