2.4.1 查全率与查准率
查准率(Precision)是指所有被分类器分为类别C 的文本中正确文本的比率。查全率(Recall)是指所有属于类别C 的文本和被分类器分到该类别的比率。他们的公式如下[8]:
(2.23)
(2.24)
TP 指被分类器正确分类到类别C 的文本数,FN 是实际属于类别C 但分类器没有将其正确分到类别C 的文本数;FP 指的是实际不属于类C 却被分类器错误的分到类别C 的文本数。
2.4.2 F-测量
查准率和查全率从两个不同的方面反映了分类器的分类能力,有时如果单纯提高查准率将会导致查全率的降低,反之亦然,如果有一个指标综合考虑这两种指标,它将能很好的评价一个分类器的分类能力,这个评价指标就是F-测量,其计算公式如下:
(2.25)
其中 是一个调节因子,用于以不同权重考察查全率和查准率在F-测量中的作用,当 等于1 时,表示同等对待查准率和查全率,此时的F-测量指标被称为1 F 指标,定义如下:
(2.26)
2.4.3 微平均和宏平均
查全率、查准率和F-测量都是针对单个类别进行的度量,当需要对整个分类性能综合考虑时,我们需要将所有的类别的结果综合起来得到结果。基于这种考虑有两种评价指标:微平均(Micro-averaging)和宏平均(Macro-averaging)。微平均计算所有类别中正确分类和错误分类的文本总数,再求查全率R 和查准率P。宏平均则考虑所有类别中微平均和宏平均的算术平均值。目前还没有关于哪种评价指标好坏的定论。当数据集间的差异较大时,两者值的差异也较大。当某类别具有较低通用性的时候,宏平均更能反映分类能力[3]。
3 文本分类的算法实现
3.1 中文文本预处理
论文使用的语料库是中科院提供的标准语料库,选取了其中的10 类作为分类目标,其分别为:交通类、体育类、军事类、医药类、政治类、教育类、环境类、经济类、艺术类和计算机类。每类选取了200篇共计2000 篇文档作为训练文档,然后选取了库中300篇文档作为测试,流程图如图3.1。
图3.1中文文本预处理过程
中文不同于英语及其他语种,它的书面表达方式是以汉字作为最小单位的,即是字的序列,词之间没有间隔标记。而在自然语言理解当中,词是语言中最小的能独立运用的单位,是自然语言处理系统中重要的知识载体与基本操作单位。在自动文本分类技术中,基于字频的分类方法在实际使用中较为少见,大多数分类方法都是基于词的,而一些基于自然语言理解的方法也必须首先对文本进行分词。而且,由于中文特有的书写形式、灵活多变的构词方式以及对句子采取不同的分词形式可能产生完全不同的含义,对中文文本的自动切分比较困难。论文采用了中科院的“ICTCLAS 汉语分词系统”来对2300 篇文档语料库进行文本的分词。其软件网址为:http://www.youerw.com/。ICTCLAS主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCLAS分词速度单机500KB/s,分词精度98.45%,API不超过100kb,各种词典数据压缩后不到3M,是世界上最好的汉语词法分析器之一[9]。
- 上一篇:基于最速下降法的FIR滤波器设计方法研究
- 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
-
-
-
-
-
-
-
巴金《激流三部曲》高觉新的悲剧命运
高警觉工作人群的元情绪...
g-C3N4光催化剂的制备和光催化性能研究
C++最短路径算法研究和程序设计
浅析中国古代宗法制度
中国传统元素在游戏角色...
江苏省某高中学生体质现状的调查研究
现代简约美式风格在室内家装中的运用
NFC协议物理层的软件实现+文献综述
上市公司股权结构对经营绩效的影响研究