1. 研究的目的
随着电脑和网络的迅猛发展,越来越多的信息在网络上产生并存在,要怎样来获取准确有效的信息呢?搜索引擎是一个很好的工具来获取有用的信息,所以它成为了除E-mail之外的第二大网络流行工具
一般搜索引擎的工作流程可以用以下几点描述:首先,网络机器人就是所谓的Spider浏览英特网,搜集web页面的链接以及页面里的内容;Spider把那些信息存进一个索引数据库;然后搜索工具将web页面的链接分类并排列,然后搜索引擎就可以从中找到用户所需要的链接。
但是所找的页面中会包含许多没用的页面,所以人们开始花越来越多的精力来研究在一个特定的域里面垂直搜索。临床科室护理差错易发生环节和防范措施
商业信息只是网络信息很小的一部分,假如我们想要搜索商业信息,我们就要花很多精力去下载spider为我们找到的所有信息,然后人工去筛选那些有用的商业信息,所以实现一个高效的面向商业的spider程序十分具有价值,在这篇论文中,我们将介绍一种实现一个搜索引擎的方法
2. 实现的过程
网络机器人总是从一个特定的或几个页面开始,然后浏览它所能找到的所有页面。所以首先网络机器人会先分析一个页面的HTML代码,找到这个页面里面的所有超链接,然后用递归或者非递归的方法浏览所有的链接页面,递归是一种可以把程序逻辑移动到自身的算法。这种算法很简单,但是不能应用到多线程技术。因此,它不能在一个高效的spider程序里面采用。使用非递归的算法,Spider程序把它找到的超链接放到一个等待队列里面而不是转向它,当spider程序扫描完当前这个页面,它就会按照算法转向等待队列里的下一个链接。本文来自优.文'论,文·网原文请找腾讯324'114
面向商业的spider在讲一个超链接加入一个队列之前会先判断这个链接是否与商业有关,实现这一点的方法是:
1. 搜集一些与商业相关的典型文件并把这些文件转化为文本文件
2. 使用LSA理论把那些文本文件转化为一个文本条目矩阵。使用LSA模型,一个文本集可以用一个r乘以m的条目矩阵D来表示。M表示文本集中文本的数量,r表示这个文本集中不同文本的数量。就是说,每一个不同的条目反映到D中的一排;并且每一个文件反映到D中的一列。下面是一个十分相似的方程来计算权重:
在方程1中, 表示条目t在文本d中的权重, 表示条目t在文本d中的使用频率,N 表示文本的个数,ni表示包含t的文本的数量,恒量是一个规范化参数。
在实际应用中,我们意识到条目出现的位置非常重要,比如,出现在标题,开始或结束部分的条目往往是一个文件的关键字。所以我们需要更改一下那个计算方程,就是一下的形式:2449