菜单
  

    T:D C.                            (2.1)
    这里,T把一个文档实例映射为某一个类。对D中的文档d,T(d)是已知的。通过有指导地对训练文档集的学习,可以找到一个近似于T的模型:H
    H:D C.                            (2.2)
    对于一个新文档 ,H 表示对 的分类结果。一个分类系统的建立或者说分类学习的目的就是寻找一个和T最相近似的H。即给定一个评估函数f,学习的目标应使T和H满足:
                        (2.3)
    2.1  文本分类系统
     
     图 2.1 文本分类系统结构
    文本分类过程是一个相对复杂的过程。并且随着分类算法的不同其结构也有相应的改变。文本分类一般包括文本的模型建立、文本的特征表示、特征选取、分类器的选择、数据的训练、分类结果的评价与反馈等过程,流程图如图2.1。
    2.2  文本预处理
    文本分类算法处理的数据对象是文本。文本作为人类语言的一种表现形式,它不具有严格的逻辑结构,由人类的习惯用语即成语言。而正是这种非结构性,使得我们必须对文本进行预处理,把它转化成计算机可以识别的,且具有一定结构的数据形式。文本的预处理包括:文本的表示、特征提取、特征项的权值计算,下面分别进行介绍。
    2.2.1  文本表示
    由于分本分类算法只能直接处理结构化的数据,文本作为非结构化数据需要对其进行结构化处理,把无结构化的文本转化为结构化描述。文本表示是指用文本的特征信息集合来代表原来的文本。文本的特征是文本的元数据,分为描述性特征(例如文本的名称,大小,时间,类型等)和语义性特征(如文本的标题,内容等)。现有文本分类技术的前提假设是特征和文档类别概念密切相关。在这一假设下,通常有两种文档表示模型,即布尔模型和向量空间模型。
    向量空间模型中,一篇文档表示为特征空间中的一个向量,这个向量也称为文档向量。文档向量中每一文对应于文档中的一个特征,它的权值为该向量文对应的特征在文档库中的权值,一般采用TFIDF方法计算。两篇文档的相似度,则通过计算对应文档向量的夹角余弦得到。
    布尔模型可以看作是向量模型的一种特例,根据特征是否在文档中出现,特征的权值只能取1或O。许多时候,使用二值特征的分类效果结果并不比考虑特征频率的差。
    决策树方法、关联规则方法和Boosting方法就是基于布尔模型;而KNN法、SVM方法、LLSF是基于向量模型。Byaes推理网分类方法,则考虑了文档中词之间的依赖关系[4]。
    2.2.2  文本特征选择
    根据John Pieree的理论,用来表示文本的特征理论上应具有如下特点:
    a) 出现频率适中
    b) 数量上尽量少
    c) 噪音少
    d) 冗余少
    e) 与其所属类别语义相关
    f) 含义尽量明确
    就文本来说,最方便采用的特征就是词或短语。词或短语是组成文本的而文本所具有的词和短语相对多,对于几篇文档来时数量还可以接受,但是我们所处理的是大规模的文本,其词和短语的数量就可想而知是多么的大了。如果都作为特征项来处理,无疑会浪费大量的时间和空间,因此必须对这些词语进行筛选,这样做的目的只要有以下两个方面:一是为了提高程序的运行效率;二是所有的词对文档分类的作用是不同的,对于在所有类中出现频率都较大的词和短语对分类贡献就较少,而那些只在某类中出现频率较大的词和短语对分类的贡献就较大,因此我们需要去除那些对分类贡献较小而保留贡献较大的词或短语[4]。
  1. 上一篇:基于最速下降法的FIR滤波器设计方法研究
  2. 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
  1. FHA和PHA的交叉验证技术在...

  2. 灰色建模技术的通信运行指标预测

  3. VHDL+EDA波形发生器设计

  4. 声波识别技术手机声控开关的设计+程序

  5. FFT重叠变换域的窄带干扰抑制技术MATLAB仿真

  6. 向IPV6演进中的路由器工作原理研究隧道技术

  7. 电容测量中差分转单输出...

  8. 巴金《激流三部曲》高觉新的悲剧命运

  9. 高警觉工作人群的元情绪...

  10. g-C3N4光催化剂的制备和光催化性能研究

  11. C++最短路径算法研究和程序设计

  12. 浅析中国古代宗法制度

  13. 中国传统元素在游戏角色...

  14. 江苏省某高中学生体质现状的调查研究

  15. 现代简约美式风格在室内家装中的运用

  16. NFC协议物理层的软件实现+文献综述

  17. 上市公司股权结构对经营绩效的影响研究

  

About

优尔论文网手机版...

主页:http://www.youerw.com

关闭返回