4.3 数据处理 13
4.3.1 数据收集 13
4.3.2 数据预处理 13
4.4 分类回归树算法 14
4.5 结果对比 16
5. 总结 16
1. 引言
1.1 背景
在这个信息爆炸的时代,每天都会生成大量数据,为了对这些数据进行有效利用,从中得出关键性数据以及有用的信息,我们利用数据挖掘(Data Mining)技术对这些数据进行有效处理。
1.2 研究对象
本文拟探讨数据挖掘中所运用的的分类回归树方法以及具体应用实例。分类回归树是基于统计理论的非参数的识别技术,它具有非常强大的统计解析功能,对输入数据和预测数据的要求可以是不完整的,或者是复杂的浮点数运算。[10]而且,数据处理后的结果所包含的规则明白易懂。
因此,分类回归树已成为对特征数据进行建立统计解析模型的一个很好的方法。
2. 数据挖掘相关理论
2.1 数据挖掘的介绍
数据挖掘是一项较新的数据库技术,以大量的数据作为应用基础,并从中分析提取出关键性的、有效的信息与数据并用此来支持决策。这是一个数据爆炸的时代,伴随着数据库的大量运用,我们对于大量数据与信息的利用率已经大大提高。无论是在经济、政治、环境等各个方面都广泛而普遍的运用数据库这一技术来对信息进行有效储存,然而伴随而来的也有大量疑难问题:比如信息过量堆积、信息可靠性、信息安全问题以及信息之间的差别统一型。针对这些问题,我们的数据挖掘技术便随之诞生了。
对于这些无尽的数据,有效提取其中有用的信息将成为一项非常艰巨的任务。而数据挖掘研究技术诞生的目的主要是发现知识、使数据可视化、纠正数据。在处理数据过程中对一系列相关数据进行采集分析并且在最后对数据价值进行高准确率的总结。它利用各种分析方法和分析工具在无尽的数据与信息中建立模型和发现数据间关系的过程,并且用此来支持决策或对博弈等进行预测。
数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识源^自·优尔|文\论]文'网[www.youerw.com,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
2.2 数据挖掘的应用举例
数据挖掘应用广泛,例如银行利用数据挖掘技术根据客户消费习惯收入水平稳定性等一系列数据对客户进行信用评估,以此为凭借来进行接下来一系列业务,例如放贷或确定信用卡限额。一般来说客户信用评估的特点在于数据量大,变量多。而后文将对数据挖掘中的分类回归树方法在银行信用评估的应用做一个简单分析。