毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

java搜索引擎的研究与实现 第8页

更新时间:2010-5-12:  来源:毕业论文
java搜索引擎的研究与实现 第8页
计算这个权值呢?PageRank采用以下公式进行计算:
 
其中Wj代表第j个网页的权值;lij只取0、1值,代表从网页i到网页j是否存在链接;ni代表网页i有多少个链向其它网页的链接;d代表“随机冲浪”中沿着链接访问网页的平均次数。选择合适的数值,递归的使用以上公式,即可得到理想的网页链接权值。该方法能够大幅度的提高简单检索返回结果的质量,同时能够有效的防止网页编写者对搜索引擎的欺骗。因此可以将其广泛的应用在检索器提供给用户的网页排序上,对于网页评分越高的网页,就排的越前。
6.2.3权威网页和中心网页
权威网页
顾名思义,是给定主题底下的一系列重要的权威的网页。其重要性和权威性主要体现在以下两点:
1) 从单个网页来看,它的网页内容本身对于这个给定主题来说是重要的;
2) 从这个网页在整个互联网重的地位来看,这个网页是被其他网页承认为权威的,这主要体现在跟这个主题相关的很多网页都有链接指向这个网页。
由此可见,权威网页对于主题搜索引擎的实现有很重大的意义。主题搜索引擎一个很关键的任务就是从互联网上无数的网页之中最快最准的找出这些可数的权威网页,并为他们建立索引。这也是有效区别主题搜索引擎和前三代传统通用搜索引擎的重要特征。
中心网页
是包含很多指向权威网页的超链接的网页。最典型中心网页的一个例子是Yahoo!,它的目录结构指向了很多主题的权威网页,使得它兼任了很多主题的中心网页。由中心网页出发,轻而易举的就会到达大量的权威网页。因此,它对于主题搜索引擎的实现也起了很大的意义。
权威网页和中心网页之间是一种互相促进的关系:一个好的中心网页必然要有超链接指向多个权威网页;一个好的权威网页反过来也必然被多个中心网页所链接。
6.3小节
本章介绍了面向主题的搜索策略,并作了详细阐述。虽然在新闻搜索中并没有应用到搜索策略,但是对于WWW搜索引擎来说,搜索策略是极其重要的。他直接关系到搜索的质量以及匹配度等性能。
参考文献
文献资料
① 《Programming Spiders,Bots,and Aggregator in Java》[美]Jeff Heaton著
② 《搜索引擎与信息获取技术》徐宝文、张卫丰著
③ 《基于Java的全文搜索引擎Lucene》车东著
④ 《主题搜索引擎的设计与实现》罗旭著
⑤ 《Thinking in Java 》[美]Bruce Eckel著
开发工具、平台及资源:
①  Borland Jbuilder 9
②  Sun JDK 1.4.1
③  Jakarta Tomcat 4.1
④  Jakarta Lucene
⑤  Package Bot

上一页  [1] [2] [3] [4] [5] [6] [7] [8] 

java搜索引擎的研究与实现 第8页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©youerw.com 优文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。