2.2 决策树算法
决策树,顾名思义,即以树状结构建立模型,不同的数据属性分布在不同的分支和不同的次分支下。通过算法将数据处理成为规则,然后通过决策分析这些数据并进行分类。这种算法通过逼近离散函数值,可以用来解决分类和回归的问题。在决策树算法中,比较常用的有ID3算法,这种算法由J Ross Quinlan提出,优点在于减少了树的层数,但是相应的缺点在于,对叶子数目的研究并不敏感,由此,派生出了C4.5这种算法,这种算法对ID3算法进行了一定程度上的改进,能够解决分类和回归的问题。在运用这种算法解决问题时,要先通过用训练样本构建决策树,然后对构建的决策树进行剪枝和修正,即通过将测试样本的输入,去除掉那些能对准确性造成影响的初步规则。
2.3 贝叶斯算法
贝叶斯定理就是通过对随机事件A和随机事件B的关系的判断,求得条件概率的种则定理。随着机器学习的产生,藉由贝叶斯定理产生了贝叶斯算法。这种算法也可以用来解决分类和回归的问题,甚至可以和神经网络的算法达到差不多的目的。这种算法在分类时速度较快,准确率也相对较高,无论从设计还是理解方面都较为简单,在进行大型数据的运算中可以用到。如朴素贝叶斯算法,贝叶斯置信网络(Bayesian Belief Network),TAN(tree augmented Bayes network)算法等都属于贝叶斯算法。贝叶斯算法可以用来从电子邮件中分出垃圾邮件,或者对建设项目质量管理风险因素进行分析,或是对新闻稿进行分类等。来,自|优;尔`论^文/网www.youerw.com
2.4 基于核的算法
基于核的算法的原理就是把数据映射到高纬度的向量空间,通过运算进行分类或者回归,在解决这类的问题时,现在通常都采用对支持向量机进行一定程度的延伸的算法,这种算法可以进行大规模的图像分类和性别等的识别。应用也较为广泛。
支持向量机的算法在1974年就被人提出,但最近几年才成为人们关注的对象。支持向量机的优点在于,其泛化能力较高,可以通过训练少数的训练样本得到较小的误差同时,在进行测试时,对测试样本同样能做到同等的误差,以达到将结构风险降到最低的目的。同时,这种算法在对局部算得最优解后,这个最优解同样适用于全局,这和其他算法比较是很突出的优点。这种算法通过对非线性变换的和函数的计算,避开了直接计算非线性变换的难度,即引入核函数进而达到将线性算法变成非线性算法从而减少计算量的目的。