Python网络舆情监控网络爬虫研究与实现(3)
时间:2022-07-23 22:01 来源:毕业论文 作者:毕业论文 点击:次
1、引擎:用来处理整个系统的数据流,触发新事务。 2、调度器:用来接受引擎发过来的请求,压入队列中,并在引擎再次请求时返回。 3、下载器:主要用来下载网页中的内容,并将其返回给蜘蛛。 4、蜘蛛:蜘蛛主要是来制订特定域名或网页的解析规则。 5、项目管道:负责处理由蜘蛛从网页中抽取的项目,主要任务是理清、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。 6、中间件:主要有下载器中间件、蜘蛛中间件和调度中间件。[7 (责任编辑:qin) |