微博热点话题提取技术研究+文献综述(4)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

微博热点话题提取技术研究+文献综述(4)


虽然理论上支持255个并发用户,但实际上根本支持不了那么多,如果以只读方式访问大概在100个用户左右,而如果是并发编辑,则大概在10-20个用户。
记录数过多,单表记录数过百万性能就会变得较差,如果加上设计不良,这个限度还要降低。
不能编译成可执行文件(.exe),必须要安装Access运行环境才能使用。
2.2  易语言和ACCESS数据库的安装
本次毕业设计中使用的是易语言5.11版的开发环境,这个是最新的版本,在本次毕业设计中在这个开发环境下能用少量的代码就能实现基本功能。由于平台win7系统,推荐将它安装在默认路径,改变路径后可能会有各种无法预计的错误,同时本项目需要用到数据库,采用了07版的access数据库,采用本地数据库方便于项目的实施,所以没有采用sql数据库。

3  需求分析
    本次毕业设计所需达到的要求是将目前微博上的热点话题提取出来,存入本地数据库并进行相关的数据分析。因此,首先要做的就是将时下的热点话题提取出来,目前微博的种类较多,而其中属新浪微博较为成熟,在进行相关了解之后,我们发现新浪微博提供了一系列的API接口,供开发者使用,来获取新浪微博中的一些相关数据,而这其中就有我们本次毕业设计中的话题接口,那么我们只需要通过申请成为开发者,获取一个有效的APP key就可以通过话题接口来获取我们所需要的信息。获取到有用信息之后要行进相关的文本处理,得到最终的热点话题,并存入本地数据库。对于插入的数据内容,我们还可以进行进一步的整理分析,如对相关的搜索量进行筛选,设置一个阈值,找出大于这个设置的搜索量的话题,进而更加缩小话题范围,得到更加有效的信息数据。
3.1 API接口
API:应用程序接口(API:Application Program Interface)
应用程序接口(是一组定义、程序及协议的集合,通过 API 接口实现计算机软件之间的相互通信。API 的一个主要功能是提供通用功能集。程序员通过使用 API 函数开发应用程序,从而可以避免编写无用程序,以减轻编程任务。 API 同时也是一种中间件,为各种不同平台提供数据共享。
互联网上经常使用的是开放API。所谓的开放API(OpenAPI)是服务型网站常见的一种应用,网站的服务商将自己的网站服务封装成一系列API开放出去,供第三方开发者使用,这种行为就叫做开放网站的API,所开放的API就被称作OpenAPI(开放API)。
网站提供开放平台的API后,可以吸引一些第三方的开发人员在该平台上开发商业应用,平台提供商可以获得更多的流量与市场份额,第三方开发者不需要庞大的硬件与技术投资就可以轻松快捷的创业,从而达到双赢的目的,开放API是大平台发展、共享的途径,让开发者开发一个有价值应用,付出的成本更少,成功的机会更多。今天,OpenAPI作为互联网在线服务的发展基础,已经成为越来越多互联网企业发展服务的必然选择。
3.1.1  新浪微博API
新浪微博同样提供了许多开放API,相关的网址如下:
在新浪所提供的API文档中我们可以找到话题接口的API。如图3-1所示:
图3-1 新浪微博话题接口
在图中的几个接口中,我们所需要的是下面三个,返回最近一小时内的热门话题,返回最近一天内的热门话题,返回最近一周内的热门话题。以返回最近一小时内的热门话题为例,点击连接后会出现该接口的相关说明:
trends/hourly          返回最近一小时内的热门话题 (责任编辑:qin)