垂直网站网络分布式爬虫的设计与实现(7)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

垂直网站网络分布式爬虫的设计与实现(7)

Solr 作为一个独立的全文搜索引擎运行,其核心处在于使用 Lucene Java 搜索库为了实现 全文索引和搜索,并具有类似 REST 的 HTTP/XML 和 JSON 的 API 库,可以兼容当下最流行 的编程语言。Solr 的外部配置在没有 java 编码的情况下能够适用于多种应用程序,并提供了 一个插件架构以支持更多的高级定制[6]。来~自,优^尔-论;文*网www.youerw.com +QQ752018766-

第 8  页 本科毕业设计说明书 

图 2。4 solr 实现原理图

Solr 搜索引擎分为两层:Lucene 全文搜索引擎层和应用程序层。在 Lucene 层里主要负责 索引,包括对应用程序层收集到的数据的索引和用户查询请求的搜索索引工作;应用程序层 大致分为两个项目:收集数据和用户,收集数据可以通过文件系统、数据库、web 以及手动 输入等方式,而用户这个项目是为了满足真实用户查询、搜索的需求。

2。4  本章小结

本章主要交代了本毕设主要用到的技术:nutch、hadoop 和 solr,以及关于这些技术的基 本简介,使读者能对本文所用技术有一个大致的了解。

(责任编辑:qin)