2.3 网页存储器与分析索引器
Web页面被抓取回来后需要暂时的保存起来,以方便索引器的分析,通常情况下有页面存储器和索引软件来完成这些功能。页面存储器提供了两个接口:一个是为爬虫提供存储抓取到的页面,另一个则是为索引器和分析器提供获取页面的接口。页面存储器的涉及重要考虑页面的规模、页面的访问方式和数据更新以及页面的删除问题。当网络爬虫将网页抓取后存储在页面存储器中后,分析索引软件对页面信息进行自动分析和索引,然后建立提供查询的索引数据库。