3)词语频率统计 该模块对于用户输入的词语,生成该词语近期在评论区中的出现频率。 4)主题模型统计 该模块对于数据库中的所有帖子,运用主题模型进行主题划分。
2。2 性能需求
2。2。1 系统的软件环境
数据库服务器。
PostgreSQL 数据库、PostgREST 提供 REST API。
Web 服务器。
1)Nginx 1。8。1
2)Tornado 4。3
客户端计算机。
1) OS X 10。10
2) Google Chrome 50
2。2。3 系统的性能要求
1)并发需求:要求系统具有一定的并发爬取能力以充分利用硬件资源。
2)磁盘容量要求:本网站是基于 B/S 的架构,所以,在存储容量方面,网站部分所用 空间不大。但是,爬虫的数据库需要较大的存储空间。
3)适应性要求:要求系统的功能模块清晰,模块之间具有较强的内聚性,较低的耦合 性,能够使用户在很短的时间内熟悉系统的整个操作流程。
2。3 可行性分析来*自-优=尔,论:文+网www.youerw.com
可行性分析是指在现有的组织环境下,分析一个系统的开发工作是否已经具备了必要的 工作条件及资源。
2。3。1 系统业务流程调查
本系统的工作流程大致可以分为两部分: 一部分是从慕课论坛爬取数据存入数据库。另 一部分是对数据进行可视化显示。
2。3。2 系统可行性调查
1)经济的可行性:经过开发测试,本系统可以在普通个人 PC 和一般的网络状况下运 行,对机器性能的要求不高,且爬取效率较高,具有较高的经济可行性。
2)技术可行性:本系统主要采用前后端分离的方式设计开发。这种架构具有较好的可 扩展性以及较低的耦合性,便于系统的开发与维护。
2。4 本章小结
本章主要介绍了系统的功能需求、性能需求,并进行了可行性方面的分析。
Python+PostgreSQL慕课论坛爬取系统的设计与实现(4):http://www.youerw.com/jisuanji/lunwen_82239.html