Python网络舆情监控网络爬虫研究与实现(3)_毕业论文

Python网络舆情监控网络爬虫研究与实现(3)_毕业论文

毕业论文 > 计算机论文 >

Python网络舆情监控网络爬虫研究与实现(3)

时间:2022-07-23 22:01 来源:毕业论文作者:毕业论文点击:次

1、引擎：用来处理整个系统的数据流，触发新事务。

2、调度器：用来接受引擎发过来的请求，压入队列中，并在引擎再次请求时返回。

3、下载器：主要用来下载网页中的内容，并将其返回给蜘蛛。

4、蜘蛛：蜘蛛主要是来制订特定域名或网页的解析规则。

5、项目管道：负责处理由蜘蛛从网页中抽取的项目，主要任务是理清、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

6、中间件：主要有下载器中间件、蜘蛛中间件和调度中间件。[7

(责任编辑：qin)