python基于决策树算法的球赛预测(5)

第二种是一种整体的思想，先让决策树生长，然后重观全局，对每一个节点都充分考虑，保留好的，对于不好的节点删掉后，拼接节点两头，使其完整。

下面来介绍一下决策树的优缺点。

优点：

1、决策树是一种通俗易懂的方法，一般不怎么需要了解它的历史发展，它能很直观地表现出我们使用的一连串数字的特点，即使看不懂，旁人稍微指点一下，就能够了解你所要的数据所表达的意思。

2、而且在使用决策树的过程中，你不用花心思去想哪些数据源好。它能够处理很多数据类型，并且效率很高，且准确率也很好。

3、决策树是通过静态的方法来测试对象的。这表明很容易得出对应的公式。

缺点：

1、很难预测出一连串的字段

2、要对根据时间排序的数据做预处理，工作量很大

3、不能处理过多的数据。这是因为如果前面产生错误，不会消失。这样会影响后面的程序。

4、它和普通的算法不同。它必须找出有特征的字眼来进行事物的区分。

决策树能构造一组特殊的有意义的数据。并用此来创造一棵二叉树。这种树通常通过其节点来做一下思维上的判断。然后它把分支当成是判断的不同结果。多叉树和二叉树类似。只不过它的分叉比较多，这决定了它所代表的事物的特点也比较多。但不排除这样的后果是很多特点是有相同特征的，所以必须对多叉树进行一定的改进，优化算法。解决这类问题的方法有：

1、尽量减小叶节点的深度言论文网

2、减少叶节点的数量

接下来介绍一下决策树中一种高效的算法——分类与回归树，它不需要参数和回归方程就可以进行预测。

分类与回归树目前已经在很多数据挖掘的领域使用了。它的使用和二叉树类似，比普通的算法准确度要高很多，而且随着数据的繁琐，它的优势就越大。在使用分类与回归树时，大多情况下要控制变量，即遵循单变量不同的原则，通过不断改变这个变量的值来分析和预测结果，然后再换取变量，重复操作。

2。2 随机森林算法

随机森林就是一种决策树的加强版。它通过构造多棵决策树来判断结果。一棵决策树可以学到很复杂的规则。然而，很可能会导致过拟合问题。学到的规则只适用于训练集。解决方法之一就是调整决策树算法，限制它所学到的规则的数量。例如，把决策树的深度限制在三层，只让它学习从全局角度拆分数据集的最佳规则，不让它学习适用面很窄的特定规则，这些规则会将数据集进一步拆分为更加细致的群组。使用这种特殊的方案得到的决策树更容易处理实际问题。但同时也暴露出一个问题：它的表现力弱。

为了弥补上述方法的不足，我们可以创建多棵决策树，用它们分别进行预测，再根据少数服

从多数的原则从多个预测结果中选择最终预测结果。这正是随机森林的工作原理。

但上述过程有两个问题。一是创建的多棵决策树在很大程度上是相同的。我们只有一个训练集，如果尝试创建多棵决策树，它们的输入就可能相同（因此输出也相同）。解决的办法是，分多次抓取。而且每次抓取都保证随机性。用选出来的数据去训练决策树。这个过程叫做装袋。

第二点是用于前几个决策节点的特征非常突出。。即使我们随机选取部分数据用作训练

集，创建的决策树相似性仍旧很大。解决方法是，随机选取部分特征作为决策依据。

下面来介绍一下算法： python基于决策树算法的球赛预测(5):http://www.youerw.com/jisuanji/lunwen_162241.html