`本文方法通过“点对”的方式学习hashing编码,相比于传统的“成对”策略更易于扩展
3。Method
下图是本文提出的框架。3个主要部分。
1。在ImageNet上进行有监督的预训练
2。利用隐层进行fine-tune,同时学习特定区域的特征表示和hash-like函数
3。通过分层深度搜索进行图片检索
图注:本文通过分层的深度搜索提出图片检索框架。首先在ImageNet上预训练CNN以学习到丰富的中层图像表示;其次在通过添加隐层并在隐层中设置神经元,在目标数据库上fine-tune时学习到hashes-like表示;最后基于由粗到细的策略,利用学习到的hashes-like二进制码和F7层特征,实现图片检索。
3。1 Learning Hash-like Binary Codes
近来研究表明,由输入图片引入的F6-F8的特征激活可以当做视觉特征。这些中层图像表示可以提高图像分类、检索的精度。然而这些特征维度较高,不适用于大规模的图像检索。为了提高图片检索的效率,一个降低运算量的有效方法是将特征向量转化为二进制码。这种精巧的二进制码能够通过hashing或者汉明距离很快比较。
本文试图同时学习特定区域的图像表示和一系列的hash-like函数。假设最后一个F8层的输出依赖一系列隐藏的有on和off状态的属性h。即是说,图片诱导相似的二进制激活有同样的label(标签)。为了实现该想法,在F7和F8之间部署一个隐层H,H是一个全连接层,受后面编码语义特征和实现分类的F8层的调整。H层不仅提供对F7层丰富特征的抽象,也是中层特征和高层语义的桥梁(承上启 下)。H层的神经元通过Sigmoid函数激活近似到{0,1}。
文献综述xfy为了实现领域适应,通过在目标数据集上反向传播fine-tune。CNN的初始化权重为ImageNet的预训练模型,H层和F8层的权重随机初始化。H层的初始化随机权重类似与LSH,在构建hashing位时使用随机映射。在监督学习下,编码能够从LSH(局部敏感度哈希)调整为更好匹配数据的形式。不用通过大规模的网络模型修改,该模型能够同时学习特定区域的视觉表示和hashing-like函数以用于图片检索。
3。2 Image Retrieval via Hierarchical Deep Search
Zeiler和Fergus研究过CNN的浅层学习局部视觉表示,高层捕捉语义信息能更好地用于识别。采用由粗到细的搜索策略以满足图片检索的速度和精度。首先通过相似的高层语义检索出一系列的候选图片,他们在隐层H上具有相似的二进制激活;随后进一步筛选在中层特征上具有相似性的图片。
Coarse-level Search。给定图片I,首先提取隐层H的输出作为图片标签,用Out(H)表示。隐层的激活通过一个门限,二进制化,得到二进制码。对于每一个位j=1```h