第一步是训练;
第二步是分类.
早期的分类技术都是在这些基础的方法上构建算法.
对于该分类问题,可以用数学关系式表示,已知集合: 和 ,确定关系规则 ,使得任意 只有一个 使得 成立.
其中C是待类别集合,y对应的是不同的类别,I表示待分类的项集合,x对应待分类的项,f是分类函数所要求得分类器.
这里需要说明一点,很多时候对问题分类时缺少该问题的更多信息,这样就不能准确的构建映射的规则,而是根据以往的经验对学习,从概率方面给出对的分类,所以分类器被训练出来之后并不能保证将每个待分类的数据正确被分类.分类器的好坏与使用的方法、待分类数据的特征和训练样本的大小有关.
数据挖掘中的分类算法有决策树、神经网络、朴素贝叶斯分类和K邻近值算法等. 浅谈数据挖掘的常用方法+文献综述(3):http://www.youerw.com/shuxue/lunwen_27248.html