测试搜索引擎的语义理解能力,侧重考察对等价查询是否返回相同结果【不使用双引号】

3。1 蜕变关系And\Or\Exclude

在可靠性分组中有三种蜕变关系And\Or\Exclude,搜索引擎会检索网页中是否准确包含或不包含某一词汇,因此它是一种对关键字规则操作的考察。

3。1。1 And\Or\Exclude的描述

根据搜索引擎在线说明的操作符规则进行定义,对于And\Or\Exclude的描述如下(其中X1、X2、Y分别代表查询词):

1)And:当查询词X2 =(X1 ),那么X2 的搜索集合必将不大于X1;

2)Or :当查询词 X2 =(X1 ),那么X2的搜索集合必将不小于 X1;

3)Exclude:当查询词X2 =(X1 – Y),那么 X2的搜索集合必将不大于X1;

基于上述规则,我们分别查询了百度、中文Bing、搜狗、好搜四种搜索引擎的在线帮助文档,得到如下结果:

a)百度搜索定义三种规则实现,如图3。1所示:

图3。1 百度搜索高级搜索功能截图

b)中文Bing仅定义And 规则、Or规则,如图3。2所示:

图3。2 Bing搜索规则操作符使用截图

c)搜狗搜索仅定义And规则,如图3。3所示:

图3。3搜狗搜索高级搜索功能截图

虽然在搜狗搜索的帮助文档中提到 “去除关键字”功能,但是现在的搜狗高级搜索页面上并未出现,考虑到实验的严谨性,在本文中就未对该功能进行测试;

d)好搜引擎仅定义And规则,如图3。4所示:论文网

 图3。4好搜搜索的在线说明文档截图

为了实验结果的准确性,我们进一步使用了双引号操作,能保证关键词不被拆分,这一点在四种搜索引擎的在线帮助中都有提及到,如图3。5所示:

图3。5 四种搜索引擎定义双引号操作的截图

3。1。2 And\Or\Exclude的有效性定义

由于搜索引擎的工作方式不同于其他传统数据库系统,定义该研究中蜕变关系的有效性就变得非常重要。其实在And\Or\Exclude的有效性定义中讨论的以下7条解决策略,在后面四种蜕变关系有效性定义中也是适用的:

1)鉴于搜索引擎数据库的动态更新,可能导致相同查询的结果之间产生差异,为了提高测试数据的准确性,实验采取如下策略:当一个蜕变关系的冲突发生时,实验会立即重新执行产生失效的原始查询和后续查询对,只有当冲突是可重现时,该失效才会被记录;

2)考虑到待测搜索引擎返回往往是近似的查询结果,实验中使用以下策略来解决这个问题:a)多次分时段进行重复测试来寻求计量均值;b)使用双引号进行精确搜索来降低歧义性;c)在后面的四组蜕变关系实验中,选取前20以内的返回列表作为测试结果,进行采样分析;

3)在本实验中,所有测试用例都是根据待测引擎的具体在线说明,来进行编写;

4)为了避免搜索引擎输入框对过长查询进行截断,实验确保每个查询长度都在限制范围之内;

5)因为搜索引擎对搜索结果的过滤操作,可能会导致搜索结果不准确。实验过程中一直禁用任何过滤功能,使用新安装的Firefox浏览器的隐私浏览模式(图3。6),不包含任何cookies、历史记录、搜索、缓存、个人账号等信息,来避免个人化搜索。

图3。6 Firefox浏览器的隐私浏览模式截图

6)由于四种待测搜索引擎都带有网页推广功能(图3。7),在进行响应结果收集时,不把被推广网页计算在内;

图3。7 四种搜索引擎的网页推广功能截图 

7)考虑到四种搜索引擎会自动生成搜索结果集(图3。8),该类网络集在后面四种蜕变关系的实验中,不计算在返回列表之内;

上一篇:Android平台的手机计步器设计与实现
下一篇:Schattenp-范数图像压缩感知重构算法的实现与验证

java+mysql通用试题库系统后台设计与实现

PHP+IOS的会议管理系统的设计+ER图

基于网络的通用试题库系...

银行行办公信息服务系统【1544字】

用友NC信息系统的实施應用实践研究【3307字】

浅析嵌入式系统支柱學科...

浅析人工智能体系建设【5490字】

麦秸秆还田和沼液灌溉对...

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

LiMn1-xFexPO4正极材料合成及充放电性能研究

新課改下小學语文洧效阅...

我国风险投资的发展现状问题及对策分析

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究

张洁小说《无字》中的女性意识