Python+PostgreSQL慕课论坛爬取系统的设计与实现(4)
时间:2021-09-25 19:50 来源:毕业论文 作者:毕业论文 点击:次
3)词语频率统计 该模块对于用户输入的词语,生成该词语近期在评论区中的出现频率。 4)主题模型统计 该模块对于数据库中的所有帖子,运用主题模型进行主题划分。 2。2 性能需求 2。2。1 系统的软件环境 数据库服务器。 PostgreSQL 数据库、PostgREST 提供 REST API。 Web 服务器。 1)Nginx 1。8。1 2)Tornado 4。3 客户端计算机。 1) OS X 10。10 2) Google Chrome 50 2。2。3 系统的性能要求 1)并发需求:要求系统具有一定的并发爬取能力以充分利用硬件资源。 2)磁盘容量要求:本网站是基于 B/S 的架构,所以,在存储容量方面,网站部分所用 空间不大。但是,爬虫的数据库需要较大的存储空间。 3)适应性要求:要求系统的功能模块清晰,模块之间具有较强的内聚性,较低的耦合 性,能够使用户在很短的时间内熟悉系统的整个操作流程。 2。3 可行性分析来*自-优=尔,论:文+网www.youerw.com 可行性分析是指在现有的组织环境下,分析一个系统的开发工作是否已经具备了必要的 工作条件及资源。 2。3。1 系统业务流程调查 本系统的工作流程大致可以分为两部分: 一部分是从慕课论坛爬取数据存入数据库。另 一部分是对数据进行可视化显示。 2。3。2 系统可行性调查 1)经济的可行性:经过开发测试,本系统可以在普通个人 PC 和一般的网络状况下运 行,对机器性能的要求不高,且爬取效率较高,具有较高的经济可行性。 2)技术可行性:本系统主要采用前后端分离的方式设计开发。这种架构具有较好的可 扩展性以及较低的耦合性,便于系统的开发与维护。 2。4 本章小结 本章主要介绍了系统的功能需求、性能需求,并进行了可行性方面的分析。 (责任编辑:qin) |