一个学习机器的任务就是找到 的映射关系。因此学习机器可以被定义为一系列 的集合,其中 是可变参数。对于一个给定的输入 和被选定的参数 ,学习机器的输出保持不变都为 。不同的 有与之相对应的一个样本训练器.学习机器的测试误差,即期望风险为(Expected Risk):
(2-1)
2。1。2 经验风险
期望风险是判断一个学习机器质量好坏的最重要标准,但很难通过计算得到。所以人们引入经验风险来近似表示期望风险。经验风险(Empirical Risk)表示的是训练集上能被测量到的错误。即
(2-2)
根据统计学习理论中关于函数集的推广性的界的结论,期望风险 和经验风险 之间至少以不少于1- ( )的概率存在。即
(2-3)
式中: 是函数 的VC维数, 为训练样本数。
2。2 线性可分的最优分类面
(1)最优分类面
考虑一个两类训练样本集的分类问题:
(2-4)
存在如下超平面: ,使得训练样本集完全正确分开,同时满足距离超平面最近的两类点间隔最大,我们称样本集被超平面最优划分.归一化超平面方程,使得所有样本集满足如下约束条件:
(2-5)
此时分类间隔为 ,最大间隔等价于使 最小.使分类间隔最大实际上就是对学习机器推广能力的控制,这是SVM的核心思想之一.统计学习理论指出,在N维空间中,设样本分布在一个半径为R的超球范围内,则所有分类间隔为 的正则超平面构成的指示函数集 的VC维满足下面的界: 文献综述
(2-6)
因此,使 最小就是使VC维的上界最小,从而实现结构风险最小化(Structure Risk Minimization,SRM)准则中对函数复杂性的选择.
(2)最优问题求解
在线性可分情况下,在结构风险最小化准则下的最优超平面问题,可以表示为如下的约束优化问题:
(2-7)
式中问题的最优解可以通过求解拉格朗日函数的鞍点得到,定义如下的Lagrange 函数:
(2-8)
其中, 为各样本对应的 Lagrange 系数.
求解式(2-8)的最小值,可以令该泛函对 和 求偏导,并令它们等于0,就可以把上述求最优分类面的问题转化为较简单的对偶问题.其对偶问题由如下形式:
(2-9)