Python+PostgreSQL慕课论坛爬取系统的设计与实现(4)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

Python+PostgreSQL慕课论坛爬取系统的设计与实现(4)

3)词语频率统计 该模块对于用户输入的词语,生成该词语近期在评论区中的出现频率。 4)主题模型统计 该模块对于数据库中的所有帖子,运用主题模型进行主题划分。

2。2 性能需求

2。2。1 系统的软件环境

数据库服务器。

PostgreSQL 数据库、PostgREST 提供 REST API。

Web 服务器。

1)Nginx 1。8。1

2)Tornado 4。3

客户端计算机

1) OS X 10。10

2) Google Chrome 50

2。2。3 系统的性能要求

1)并发需求:要求系统具有一定的并发爬取能力以充分利用硬件资源。

2)磁盘容量要求:本网站是基于 B/S 的架构,所以,在存储容量方面,网站部分所用 空间不大。但是,爬虫的数据库需要较大的存储空间。

3)适应性要求:要求系统的功能模块清晰,模块之间具有较强的内聚性,较低的耦合 性,能够使用户在很短的时间内熟悉系统的整个操作流程。

2。3 可行性分析来*自-优=尔,论:文+网www.youerw.com

可行性分析是指在现有的组织环境下,分析一个系统的开发工作是否已经具备了必要的 工作条件及资源。

2。3。1 系统业务流程调查

本系统的工作流程大致可以分为两部分: 一部分是从慕课论坛爬取数据存入数据库。另 一部分是对数据进行可视化显示。

2。3。2 系统可行性调查

1)经济的可行性:经过开发测试,本系统可以在普通个人 PC 和一般的网络状况下运 行,对机器性能的要求不高,且爬取效率较高,具有较高的经济可行性。

2)技术可行性:本系统主要采用前后端分离的方式设计开发。这种架构具有较好的可 扩展性以及较低的耦合性,便于系统的开发与维护。

2。4 本章小结

本章主要介绍了系统的功能需求、性能需求,并进行了可行性方面的分析。

(责任编辑:qin)