基于源搜索引擎的图片搜索研究(5)

目前，图像检索引擎主要通过以下两种方法识别图像：
(1)自动查找图像文件。通过两个HTML标签，即IMGSRC和HREF来检测是否存在可显示的图像文件，IMGSRC表示“显示下面的图像文件”，导向的是嵌入式图像；而HREF则表示“下面是一个链接”，导向的是被链接的图像。检索引擎通过检查文件扩展名来判断其导向的是否为图像文件，如果文件扩展名是.gif或.jpg，即是一个可显示的图像。
(2)人工干预找出图像。进行分类，由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系，但劳动强度太大，因此要限制处理图像的数量。
由于图像不同于文本，需要人们按照各自的理解来说明其蕴含的意义，因此图像检索要比文本检索和查询难的多。
3.2 图像检索引擎的检索途径
3.2.1关键词检索
传统的图像检索技术是基于关键字的精确匹配检索，系统内的图像用关键字标识，检索线索是与标识相一致的关键字，即输入是关键字，输出是图像。它又包括两种途径：
(1)基于图像外部信息进行检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索，这是目前图像检索引擎采用最多的方法。在找出图像文件后，图像检索引擎通过查看文件名或路径名确定文件内容，也可以通过查看图像的标题来匹配检索词。
(2)基于手工标注的检索。手工对图像的内容（如物体、背景、颜色等）进行描述并分类，将其标注为一系列关键字，并建立索引。检索时，将主要在这些描述词中检索用户输入的关键字。这种查询方式是比较准确的，一般可以获得较好的查准率，但需人工参与，劳动强度大，因而限制了可处理的图像数量。另外，由于图像所包含的信息量庞大，不同用户对于同一张图像的看法又不尽相同，导致了对图像的标注缺乏统一标准。
3.2.2图像可视属性的检索
而基于图像内容的检索主要是由图像分析软件自动抽取图像的颜色、形状、纹理等特征，建立特征索引库，其输入为用户要查找的图像的大致特征描述或示例，通过一定相似性匹配规则，输出为与之具有相近特征的图像，按相似程度排列，供用户选择，从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题，交由系统去解决。
这是一种基于图像本身特征层次的检索，特别适用于检索目标明确的查询要求，但目前这种较成熟的检索技术主要应用于图像数据库的检索。在图像检索引擎中应用这种检索技术还有一定困难，但己有部分图像检索引擎尝试了这种检索方法。
3.3 主要指标及其分析
    作为一种搜索引擎，图像搜索引擎也具有普通的搜索引擎的一些基本的要点，例如覆盖面等。但是图像搜索引擎个体差异很大，很难进行精确的比较。下面给出图像搜索引擎的几个主要指标:
    (1)索引文档的容量：现在最大的检索引擎可能包含了超过100,000,000个链接，但这也只是整个Web网上的一小部分。因为收集资料的Robot，只能从“已知”的链接开始收集网页资料，而只有一小部分Web网页和这些“已知”的网页有连接；现在还没有一个检索引擎能够随网页内容的更新比较及时地更新索引；
    (2)覆盖面：地理覆盖面和主题覆盖面；基于源搜索引擎的图片搜索研究(5):http://www.youerw.com/jisuanji/lunwen_7517.html