例2。1某银行的信用卡评级,预先给定一个客户的信用信息的数据库,根据其信用度识别客户。
(1)评级规则与规则分类示意图
图2。1 (2)评级规则与规则分类示意图
2。2 分类算法介绍文献综述
2。2。1 基于距离的分类算法(KNN算法)
该种模型的思路简单易理解,假定数据库中的元组ti每一个都是数值向量,每个类都用一个典型的数值向量来表示,则与ti距离最近的特征向量就是它所属的类。可以由以下定义来表示:
给定一个数据库 和一组类 。对于任意的元组 ,如果存在一个 ,使得:
,则表示 被分配到类 ,其中 称为相似性[16]。
实际情况中,距离往往与相似性成反比,相似性越大,距离越小,相似性越小,距离约大。
例2。2 以下三个图表示有三个类:Class A、ClassB、ClassC,将以下数据依据基于距离的算法进行分类。
基于TF/IDF特征的网络问题自动分类研究(3):http://www.youerw.com/tongxin/lunwen_140427.html