第二种是一种整体的思想,先让决策树生长,然后重观全局,对每一个节点都充分考虑,保留好的,对于不好的节点删掉后,拼接节点两头,使其完整。
下面来介绍一下决策树的优缺点。
优点:
1、决策树是一种通俗易懂的方法,一般不怎么需要了解它的历史发展,它能很直观地表现出我们使用的一连串数字的特点,即使看不懂,旁人稍微指点一下,就能够了解你所要的数据所表达的意思。
2、而且在使用决策树的过程中,你不用花心思去想哪些数据源好。它能够处理很多数据类型,并且效率很高,且准确率也很好。
3、决策树是通过静态的方法来测试对象的。这表明很容易得出对应的公式。
缺点:
1、很难预测出一连串的字段
2、要对根据时间排序的数据做预处理,工作量很大
3、不能处理过多的数据。这是因为如果前面产生错误,不会消失。这样会影响后面的程序。
4、它和普通的算法不同。它必须找出有特征的字眼来进行事物的区分。
决策树能构造一组特殊的有意义的数据。并用此来创造一棵二叉树。这种树通常通过其节点来做一下思维上的判断。然后它把分支当成是判断的不同结果。多叉树和二叉树类似。只不过它的分叉比较多,这决定了它所代表的事物的特点也比较多。但不排除这样的后果是很多特点是有相同特征的,所以必须对多叉树进行一定的改进,优化算法。解决这类问题的方法有:
1、尽量减小叶节点的深度言论文网
2、减少叶节点的数量
接下来介绍一下决策树中一种高效的算法——分类与回归树,它不需要参数和回归方程就可以进行预测。
分类与回归树目前已经在很多数据挖掘的领域使用了。它的使用和二叉树类似,比普通的算法准确度要高很多,而且随着数据的繁琐,它的优势就越大。在使用分类与回归树时,大多情况下要控制变量,即遵循单变量不同的原则,通过不断改变这个变量的值来分析和预测结果,然后再换取变量,重复操作。
2。2 随机森林算法
随机森林就是一种决策树的加强版。它通过构造多棵决策树来判断结果。一棵决策树可以学到很复杂的规则。然而,很可能会导致过拟合问题。学到的规则只适用于训练集。解决方法之一就是调整决策树算法,限制它所学到的规则的数量。例如,把决策树的深度限制在三层,只让它学习从全局角度拆分数据集的最佳规则,不让它学习适用面很窄的特定规则,这些规则会将数据集进一步拆分为更加细致的群组。使用这种特殊的方案得到的决策树更容易处理实际问题。但同时也暴露出一个问题:它的表现力弱。
为了弥补上述方法的不足,我们可以创建多棵决策树,用它们分别进行预测,再根据少数服
从多数的原则从多个预测结果中选择最终预测结果。这正是随机森林的工作原理。
但上述过程有两个问题。一是创建的多棵决策树在很大程度上是相同的。我们只有一个训练集,如果尝试创建多棵决策树,它们的输入就可能 相同(因此输出也相同)。解决的办法是,分多次抓取。而且每次抓取都保证随机性。用选出来的数据去训练决策树。这个过程叫做装袋。
第二点是用于前几个决策节点的特征非常突出。。即使我们随机选取部分数据用作训练
集,创建的决策树相似性仍旧很大。解决方法是,随机选取部分特征作为决策依据。
下面来介绍一下算法: