3。3。1 Top5的描述
根据Imielinski 和 Signorini [23]提出的“超过65%的搜索点击是在第一个搜索结果中完成”这一理论可知,置顶返回的网页对于评价搜索质量是非常关键的因素之一。为了排除实验中存在的偶然误差,实验选取了被置顶的前5个返回网页。该类蜕变关系的具体描述如下:
先使用带双引号的原始查询A进行查询。对于返回的网页列表,选取前5个分别记作P1、P2、P3、P4、P5。后续查询Bi则是在Pi所在的域内再次进行A查询。
其中,涉及到搜索域的限定操作,即site操作。该类操作符在四种搜索引擎的在线说明中都有定义,如下图3。9所示:
图3。9 四种搜索引擎对于site操作符的定义截图
3。3。2 Top5的有效性定义
根据Pi是否存在于Bi的返回列表,以及在返回列表中的相对位置来判定是否产生了失效,具体定义如下:
1)当Pi不再出现在Bi的返回列表中,则认为发生了一次失效;
2)当Pi出现的Bi的返回列表中,但未处于合适位置,则认为发生了一次失效。此时分为两种情况:a)当Pi所在的域内不存在Pj网页时(其中j≠i,且1≤j≤5),Pi在限定域中未被置顶;b)当Pi所在的域内存在Pj网页时(其中j≠i,且1≤j≤5),Pi与Pj在限定域中的相对位置与在原始前5列表中的相对位置不一致,则认为发生了一次失效。如图3。10中相对位置保持一致的情形,则认为测试用例有效。
另外,对Top5蜕变关系的测试用例也全部遵循3。1。2中提及的7条解决策略。文献综述
在同一域内相对位置保持不变的举例截图
3。4 蜕变关系Swap
作为稳定性分组中的最后一类蜕变关系Swap,它重点考察了搜索引擎对于相似搜索是否返回相似的排序结果。通常,一个稳定的搜索引擎会对相似搜索(即组词不同含义相似的搜索)返回相似的搜索结果。
3。4。1 Swap的描述
类似于在Top5描述中的考虑,在本次实验中,选取了前20的返回网页来构造后续查询。该蜕变关系的具体表示如下:
对原始查询A不使用双引号,并且仅包含两个词汇,而后续查询B则由交换了相对位置的相同词汇构成,同样不使用双引号。
另外,为了降低词序颠换导致的语义差异过大,在实验中尽量使用名词,并且组合起来无特殊含义的词汇。
3。4。2 Swap的有效性定义
根据企业内部对于搜索引擎的非正式评估原则:“一个稳定性好的搜索引擎会对相似查询返回相似的搜索结果”,该实验中定义的有效性如下:
1)当原始查询A搜索结果数目为N(0<N),而后续查询B搜索结果为空,则认为发生N次失效;
2)当原始查询A的前20返回网页列表中任意某条网页没有出现在后续查询B的前20返回网页列表中,则认为发生一次失效;
另外,在该实验中对Swap蜕变关系的测试用例也全部遵循3。1。2中提及的7条解决策略。
3。5 蜕变关系Reverse
对于查询语句来说,有时不同的词序可能导致不同的搜索结果,尤其当词序是语义理解的关键时。比如说,“种植 水稻”和“水稻 种植”、“work hard”和“hard work”等等。在考察搜索引擎的鲁棒性时,就需要尽量降低词序对于语义的影响,最好情况是使用词序不同、含义相同的查询语句进行实验。搜索引擎的鲁棒性[23]将促使两个查询结果集合包含着较多的相同项。
3。5。1 Reverse的描述
原始查询A由A1、A2、A3、A4、A5、A6、A7组成,即A= A1 + A2 + A3 + A4 + A5 + A6 + A7。其中A4、A5、A6、A7是可选的,当A1、A2、A3组合的搜索结果超过20时,才会添加Ai(4≤i≤7)继续限定,直至搜索结果低于20个,或者当添加至A7时搜索结果仍多于20个,则舍弃该查询语句,重新构建下一条查询语句。其中A1~A7的限定词设定,是通过近百次使用淘宝的搜索引擎后总结归纳得出。在本次归纳中,满足条件的最高限定词为七级,常用限定词为三级。故而该蜕变关系的具体表述如下: