文献[18]对深度学习进行了较为全面的综述,基于无监督学习技术提出贪婪逐层预训练学习过程用于初始化深度学习模型的参数,从底层开始训练每层神经网络形成输入的表示,在无监督初始化之后,堆栈各层神经网络转换为深度监督前馈神经网络,用梯度下降进行微调。用于深度学习的学习方法主要集中在学习数据的有用表示,在神经网络较高层中使学习到的特征不随变化的因素而变化。文献[19]给出了训练深度学习模型的相关技巧,尤其是受限玻尔兹曼机(restricted Boltzmann machine,RBM),许多来自神经网络训练的想法也可以用于深度结构神经网络学习。深度学习方法已经被成功用于文本数据学习任务和视觉识别任务上。
2 深度学习
2.1深度学习的介绍
现实世界常常需要有效率的预测。非线性的支持向量机是有预测成本的,这些成本是和支持向量成比例,而且可以随着培养而线性的增长。我们采取核学习为基础的方法。核学习的目的是学习内核和支持向量机参数。特别的是,局部多个内核学习(LMKL)的目标是学习一种不同的内核,和用于在特征空间中的每个点的分类器。在加快支持向量机的角度上它从来没有被考虑过,因为平均来看,在支持向量的数目上这只能适当的完成。我们概括局部多个内核学习来学习任意局部特征嵌入,超越局部多个内核学习的非负控制功能。[5]我们学习的局部嵌入是高文的,稀疏的。
在我们提出的局部深度核学习(LDKL)中,一个局部核Kl 和一个全局核KG ,一个复合的非线性核K(xi, xj) = KL(xi, xj)KG(xi, xj)。这导致一个高文特征空间嵌入φ(x) =φL(x) φG(x),这里φL 和 φG是局部和全局的特征植入,包括各自的KL和KG。大多数的核学习公式,包括使用支持向量机对偶参数的局部多核学习是最佳的。然而,完善局部深度核学习构想是更有吸引力的,因为原始预测是高效的,并且我们不需要去担心文持对偶变量和对偶稀疏。
注意优化树的空间是困难的非凸问题。例如,θk, φLk(xi)的参数化节点k是成比例的。为了使树学习分梯度下降,φL被释放,用连续双曲正切来替代符号函数。然后,这有潜在的缺点就是φL中的许多条目可能会变得非零,稀疏性可能会消失。总的来说,这确保了只有一个显性的路径。
从局部核学习的角度来阐述这个问题,我们学习了树状组织特征。加速支持向量机的预测主要遵从了内核近似值范例。这些方法遭受这样的事实,内核无法近似的保持工作和训练集。因此,造型能力浪费在了学习优秀的内核近似值,甚至远离了决策边界。我们的最优化确保训练是有效的,深度核学习能够按照大数据集,能够获得大多数的收益。
2.2深度学习的基本思想
假设我们有一个系统S,它有n层(S1,…Sn),它的输入是I,输出是O,形象地表示为: I =>S1=>S2=>…..=>Sn => O,如果输出O等于输入I,即输入I通过本次的系统变化之后,它本身并没有任何方面的损失。信息论中有个“信息逐层丢失”的说法(信息处理不等式),设处理a信息得到b,再对b处理得到c,那么可以证明:a和c的互信息不会超过a和b的互信息。这表明信息的处理不会增加信息,反而却可能是某些信息丢失不见。如果多余冗杂的信息消失不见会是非常让我们高兴的,保持不变,也就意着输入I经过每一层Si都没有任何的缺失,即在任何一层Si,它都是初始信息(即输入I)的其他存在形式。现在来具体说一说深度学习,我们需要让它自动地来学习特征。比如说有一堆输入I(如一堆图像或者文本),假设我们设计了一个系统S(有n层),改变系统中的任意某些参数,能够让I保持不变,也就是说输入和输出是一样的,那么我们就可以自动地获取得到输入I的一系列层次特征,即S1,…, Sn。 基于局部深度核学习的非线性支持向量机的有效预测(3):http://www.youerw.com/jisuanji/lunwen_21459.html