决策树有很多优点,最大的一个优点就是易于理解和实现,在学习过程中不 需要使用者了解很多的背景知识,使用者都有能力去理解决策树所表达的意义; 对于决策树,数据的准备是简单或者是不必要的,而且可以同时处理数据型和常 规型属性的数据,在相对短的时间内能够对大型数据源分析并给出可行且效果良 好的结果;如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应 的逻辑表达式。
利用决策树算法来预测篮球联赛的获胜者,我们需要对数据进行处理,但这 样的话数据不易恢复,所以,我们的决策树算法是基于使用 python 的,利用 python 来提取特征给决策树以判断依据。
虽然决策树算法简单易懂,受大众的欢迎,但还有许多方面都存在着不足, 需要进一步研究。例如,提高决策树的精度;对有时间顺序的数据,简化或减少 预处理的工作;简化对连续性的字段预测;适当的决策树规模的研究,树的规模 越小,知识越简洁,越容易理解和使用,但预测精度并不是越高;处理海量的数 据集,因为数据挖掘往往面临的数据都是海量的,且对数据的实时性要求很高; 增量式算法;与其它方法的结合,往往只靠单一的一种算法来处理数据容易出现 问题,且一旦数据量较大时,效率就会难以提高,现在已有许多把决策树方法同 关联规则方法、贝叶斯方法、神经网方法、粗糙集方法、支持向量机方法等相结 合的研究,此外,与用户交互等方面也需要进一步的研究。
2。 NBA 的网络资源
Basketball-Reference。com:这是采集历史数据的最佳资源获取处。该网站主要是以 球员、球队、教练、联盟、奖项、季后赛、选秀、全明星等项目为索引给出相关数据;各索 引项目之间相互关联,形成了内容全面、脉络清晰的数据体系。文献综述
Basketball Prospectus。com:这个网站提供了关于各大学篮球(包括 NBA)的前沿分 析结论。
82games。com:这是利用各种在线的资源,总结出的详细的统计数据。其中最引人注 目的是+/-评价系统,除此之外,该网站提供很多作者各自的不同观点。
Knicker Blogger。net Stats Pages:该网站主要提供近期统计的数据,囊括了 Oliver
的球队因素数据分析、Hollinger 的样式统计以及每 40 分钟统计的数据等。
APBRmetrics Forum:最早的篮球比赛统计论坛,在这里,很多篮球比赛统计爱好者 将自己的分析研究结果发表出来,与志同道合者一起探讨和分享彼此的成果。论坛讨论的内 容涉及到球员的战术分析、球员的私生活情况、球员的工资问题等。
Dougstats。com:这个网站提供了实时更新的统计数据。这里提供的数据能可以极容 易导入 Excel 中。网站主要提供的是球队中不同位置的防守数据。