深度学习基于内容的图像检索(2)

`本文方法通过“点对”的方式学习hashing编码，相比于传统的“成对”策略更易于扩展

3。Method

下图是本文提出的框架。3个主要部分。

1。在ImageNet上进行有监督的预训练

2。利用隐层进行fine-tune，同时学习特定区域的特征表示和hash-like函数

3。通过分层深度搜索进行图片检索

图注：本文通过分层的深度搜索提出图片检索框架。首先在ImageNet上预训练CNN以学习到丰富的中层图像表示；其次在通过添加隐层并在隐层中设置神经元，在目标数据库上fine-tune时学习到hashes-like表示；最后基于由粗到细的策略，利用学习到的hashes-like二进制码和F7层特征，实现图片检索。

3。1 Learning Hash-like Binary Codes

近来研究表明，由输入图片引入的F6-F8的特征激活可以当做视觉特征。这些中层图像表示可以提高图像分类、检索的精度。然而这些特征维度较高，不适用于大规模的图像检索。为了提高图片检索的效率，一个降低运算量的有效方法是将特征向量转化为二进制码。这种精巧的二进制码能够通过hashing或者汉明距离很快比较。

本文试图同时学习特定区域的图像表示和一系列的hash-like函数。假设最后一个F8层的输出依赖一系列隐藏的有on和off状态的属性h。即是说，图片诱导相似的二进制激活有同样的label（标签）。为了实现该想法，在F7和F8之间部署一个隐层H，H是一个全连接层，受后面编码语义特征和实现分类的F8层的调整。H层不仅提供对F7层丰富特征的抽象，也是中层特征和高层语义的桥梁（承上启下）。H层的神经元通过Sigmoid函数激活近似到{0,1}。

文献综述xfy为了实现领域适应，通过在目标数据集上反向传播fine-tune。CNN的初始化权重为ImageNet的预训练模型，H层和F8层的权重随机初始化。H层的初始化随机权重类似与LSH，在构建hashing位时使用随机映射。在监督学习下，编码能够从LSH（局部敏感度哈希）调整为更好匹配数据的形式。不用通过大规模的网络模型修改，该模型能够同时学习特定区域的视觉表示和hashing-like函数以用于图片检索。

3。2 Image Retrieval via Hierarchical Deep Search

Zeiler和Fergus研究过CNN的浅层学习局部视觉表示，高层捕捉语义信息能更好地用于识别。采用由粗到细的搜索策略以满足图片检索的速度和精度。首先通过相似的高层语义检索出一系列的候选图片，他们在隐层H上具有相似的二进制激活；随后进一步筛选在中层特征上具有相似性的图片。

Coarse-level Search。给定图片I，首先提取隐层H的输出作为图片标签，用Out(H)表示。隐层的激活通过一个门限，二进制化，得到二进制码。对于每一个位j=1```h

深度学习基于内容的图像检索(2):http://www.youerw.com/jisuanji/lunwen_150247.html