菜单
  


    d) 支持向量机SVM
    支持向量机方法是建立在统计学习理论的VC 文理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。
    在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量和一个标记组成。如下:
     
     就是文本向量(文数很高), 就是分类标记。我们可以定义一个样本点到某个超平面的间隔:
    图2.2 支持向量机模型图示
    SVM的基本思想可用上图的两文情况说明:实心点和空心点代表两类样本,H为分类线,HI、H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大,原理示意图如图2.2。把w和b进行一下归一化,即用w/||w||和b/||w||分别代替原来的w和b,那么间隔就可以写成:
                                                   (2.21)
    yi[(w•xi)+b]≥1 (i=1,2,…,l)
    因此我们的两类分类问题也被我们转化成了它的数学形式,一个带约束的最小值的问题:
     
    Subject to              (2.22)
    满足以上公式且 最小的分类面就叫做最优分类面,H1和H2上的训练样本点就称作支持向量。
    基本的SVM是针对两类分类问题的,为了实现对多个类别的识别,需要对SVM进行扩展。常用的SVM多类分类方法有One-VS-Rest、One-VS-One、ECOC(Error—Correcting Output Coding)、DAGSVM和二叉树等方法[7]。
    2.3.2  人工神经网络
    人工神经网络是对人类大脑的一种模拟。它由一组处理单元和它们之间的联接组成:处理单元包括输入单元,隐藏单元和输出单元,它们具有局部内存,并可以完成局部操作,可以接受多个输入信号,产生一个输出信号,这个信号可以传播到多个联接上:联接能够以一定的权值传送信号,这些权值在神经网络的训练过程中可以动态调整;各处理单元可以并行运行。它适于学习复杂的非线性映射,主要应用于语音、视觉、知识处理、辅助决策等方面。根据网络结构和学习算法的不同,人工神经网络分为多层感知器、自组织映射和Hopfieldl网络等[8]。
    2.3.3  决策树分类法
        决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一颗决策树。决策树通过把实例从根节点排列到某个子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点指定了对实例的某个属性的测试,并且该结点的每个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝上下移动,这个过程在以新结点为根的子树上重复。决策树算法有ID3、CART、CHAID、ASSISTANT 算法,他们的区别在于构造决策树和树枝剪枝的算法细节不同。决策树对噪声数据具有很好的健壮性,最大缺点是不适应大规模的数据集[3]。
    2.4  性能评估
    随着信息技术和Internet 的发展,算法对数据的处理能力越来越需要大量化和精确化,文本分类算法标准从三个方面评价:有效性、计算复杂性,可理解性。有效性衡量一个分类器准确分类的能力;计算复杂性衡量算法的时间复杂度和空间复杂度;可理解性是衡量该算法是不是很好被理解,人们更易接受很好理解的算法。得宜于硬件的高速发展,我们不再缺少快速的机器和海量内存,我们在评价文本分类算法时更倾向于它的有效性,有效性主要有3 个指标:查全率(Recall)、查准率(Precision)、F-测量(F-Measure)。
  1. 上一篇:基于最速下降法的FIR滤波器设计方法研究
  2. 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
  1. FHA和PHA的交叉验证技术在...

  2. 灰色建模技术的通信运行指标预测

  3. VHDL+EDA波形发生器设计

  4. 声波识别技术手机声控开关的设计+程序

  5. FFT重叠变换域的窄带干扰抑制技术MATLAB仿真

  6. 向IPV6演进中的路由器工作原理研究隧道技术

  7. 电容测量中差分转单输出...

  8. 巴金《激流三部曲》高觉新的悲剧命运

  9. 高警觉工作人群的元情绪...

  10. g-C3N4光催化剂的制备和光催化性能研究

  11. C++最短路径算法研究和程序设计

  12. 浅析中国古代宗法制度

  13. 中国传统元素在游戏角色...

  14. 江苏省某高中学生体质现状的调查研究

  15. 现代简约美式风格在室内家装中的运用

  16. NFC协议物理层的软件实现+文献综述

  17. 上市公司股权结构对经营绩效的影响研究

  

About

优尔论文网手机版...

主页:http://www.youerw.com

关闭返回