T:D C. (2.1)
这里,T把一个文档实例映射为某一个类。对D中的文档d,T(d)是已知的。通过有指导地对训练文档集的学习,可以找到一个近似于T的模型:H
H:D C. (2.2)
对于一个新文档 ,H 表示对 的分类结果。一个分类系统的建立或者说分类学习的目的就是寻找一个和T最相近似的H。即给定一个评估函数f,学习的目标应使T和H满足:
(2.3)
2.1 文本分类系统
图 2.1 文本分类系统结构
文本分类过程是一个相对复杂的过程。并且随着分类算法的不同其结构也有相应的改变。文本分类一般包括文本的模型建立、文本的特征表示、特征选取、分类器的选择、数据的训练、分类结果的评价与反馈等过程,流程图如图2.1。
2.2 文本预处理
文本分类算法处理的数据对象是文本。文本作为人类语言的一种表现形式,它不具有严格的逻辑结构,由人类的习惯用语即成语言。而正是这种非结构性,使得我们必须对文本进行预处理,把它转化成计算机可以识别的,且具有一定结构的数据形式。文本的预处理包括:文本的表示、特征提取、特征项的权值计算,下面分别进行介绍。
2.2.1 文本表示
由于分本分类算法只能直接处理结构化的数据,文本作为非结构化数据需要对其进行结构化处理,把无结构化的文本转化为结构化描述。文本表示是指用文本的特征信息集合来代表原来的文本。文本的特征是文本的元数据,分为描述性特征(例如文本的名称,大小,时间,类型等)和语义性特征(如文本的标题,内容等)。现有文本分类技术的前提假设是特征和文档类别概念密切相关。在这一假设下,通常有两种文档表示模型,即布尔模型和向量空间模型。
向量空间模型中,一篇文档表示为特征空间中的一个向量,这个向量也称为文档向量。文档向量中每一文对应于文档中的一个特征,它的权值为该向量文对应的特征在文档库中的权值,一般采用TFIDF方法计算。两篇文档的相似度,则通过计算对应文档向量的夹角余弦得到。
布尔模型可以看作是向量模型的一种特例,根据特征是否在文档中出现,特征的权值只能取1或O。许多时候,使用二值特征的分类效果结果并不比考虑特征频率的差。
决策树方法、关联规则方法和Boosting方法就是基于布尔模型;而KNN法、SVM方法、LLSF是基于向量模型。Byaes推理网分类方法,则考虑了文档中词之间的依赖关系[4]。
2.2.2 文本特征选择
根据John Pieree的理论,用来表示文本的特征理论上应具有如下特点:
a) 出现频率适中
b) 数量上尽量少
c) 噪音少
d) 冗余少
e) 与其所属类别语义相关
f) 含义尽量明确
就文本来说,最方便采用的特征就是词或短语。词或短语是组成文本的而文本所具有的词和短语相对多,对于几篇文档来时数量还可以接受,但是我们所处理的是大规模的文本,其词和短语的数量就可想而知是多么的大了。如果都作为特征项来处理,无疑会浪费大量的时间和空间,因此必须对这些词语进行筛选,这样做的目的只要有以下两个方面:一是为了提高程序的运行效率;二是所有的词对文档分类的作用是不同的,对于在所有类中出现频率都较大的词和短语对分类贡献就较少,而那些只在某类中出现频率较大的词和短语对分类的贡献就较大,因此我们需要去除那些对分类贡献较小而保留贡献较大的词或短语[4]。
- 上一篇:基于最速下降法的FIR滤波器设计方法研究
- 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
-
-
-
-
-
-
-
巴金《激流三部曲》高觉新的悲剧命运
高警觉工作人群的元情绪...
g-C3N4光催化剂的制备和光催化性能研究
C++最短路径算法研究和程序设计
浅析中国古代宗法制度
中国传统元素在游戏角色...
江苏省某高中学生体质现状的调查研究
现代简约美式风格在室内家装中的运用
NFC协议物理层的软件实现+文献综述
上市公司股权结构对经营绩效的影响研究