1.2.2.1 关于数据挖掘概念的研究
1995 年在加拿大召开了第一届知识发现 ( Knowledge Discovery in Database
KDD ) 和据挖掘 (Data Mining DM ) 国际学术会议以后数据挖掘开始流行。在这次会议
上 “ 数据挖掘 ” ( Data Mining ) 概念第一次由 Usama Faya 提出 。 R. 格罗思认为数据挖
掘是发现数据中隐藏的模式和关系的过程。 David Olson ,Yong Shi 把数据挖掘定义为
对储存在电脑中的海量数据进行分析。 Jiawei Han 认为数据挖掘是从大型数据库或者
数据仓库中提取出隐含的 , 先前未知的 , 对决策有潜在价值的知识和规则 。 目前一种
比较公认的定义是 W.J.Frawley, G.Piatet sky Shapiro 等人提出的 : 数据挖掘就是从大
型数据库的数据中提取人们感兴趣的知识 。 这些知识是隐含的 、 事先未知的潜在有用
信息 , 提取的知识表示为概念 、 规则 、 规律 、 模式等形式 。 这种定义把数据挖掘的对象定义为数据库 , 而更广义的说法是 : 数据挖掘是在一些事实或观察数据的集合中寻
找模式的决策支过程 , 数据挖掘的对象不仅是数据库 , 也可以是文件系统 , 或其他
任何组织在一起的数据集合。
1.2.2.2 关于数据挖掘算法的研究
源于达尔文于 1859 年写的 《 物种起源 》 的遗传算法 , 在 G.E.P.Box ( 1957 ) 发表
了《进化经营:一种提高工业生产率的方法》之后逐渐应用于商业领域的数据挖掘 。
Breiman , J.Friedman , R.Olshen 和 C.Stone 合著的 《 分类和回归树 》 ( 1984 ) 发表之后 ,
决策树方法逐渐被统计学接受和信赖 。 1982 年 , John Hopfield 发表了一篇文章 , 该文
表明了如何将神经网路用于计算的目的 。 1984 年 , Teuvo Kohonen 介绍了被他称为自
组织特征映射的新算法 , 这种算法将神经网络用于无指导的学习 , 从此开辟了神经网
络研究的新分支。 J.R.Quinlan ( 1986 )在机器学习杂志上发表了一篇题为 “ 回归决策
树 ” 的文章,文中介绍了 ID3 算法。随后 J.R.Quinlan ( 1993 )又在《机器学习规划 》
中介绍了及其流行的 C4.5 决策树算法。世纪之交一遗传学家 Francis Galton 提出了
回归分析,发现了 “ 回归趋于均值 ” 。 Radding (1997) 提出了七大主要的、面向市场
的数据挖掘运算法则 。 Peacock ( 1998 ) 讲解了数据挖掘的函数表达形式 , 这些方法的
来源既有人工智能也有历史统计的结晶。 I.Bose 和 R.K.Mahapatra 从统计和运营研究
的角度把数据挖掘的方法分为聚类分析 、 各种形式的回归 、 判别分析和多目标线性规划。
1.2.2.3 关于数据挖掘应用的研究
数据挖掘应用非常广泛 , 不仅可以应用于商业领域 , 还可以应用医学等其他领域 。
典型的应用有 : 加州理工学院喷气推进实验室与天文科学家合作开发 的 SKICA T 系统 ,
能够帮助天文学家发现遥远的类星体 , 是人工智能技术在天文学和空间科学上的第一
批成功应用之一 ( Fayydad , 1997) 。 SPSS 的 Clementin 。 以 PMML 的格式提供与预言模
型系统的接口 。 数据挖掘技术在客户关系管理方面的应用研究是数据挖掘应用研究领
域的一个热点问题 。 中国人民大学统计学系数据挖掘中心 (2002) 提出了建立以数据挖
掘为基础的客户关系管理体系 ; 张阿兰和谢邦昌 (2002) 对要求用户对具体的算法和数
据挖掘技术有相当的了解 , 还要负责大量的数据预处理工作 。 HinolKargUPta 等发表
了一篇在移动环境下挖掘决策树的论文 ( HillolKarguptaandB 和 Hoompark , 2001) 。1.3 1.3 1.3 1.3 技术路线 技术路线 技术路线 技术路线 基于Agent数据挖掘的宜兴电缆企业发展特征研究(4):http://www.youerw.com/guanli/lunwen_8459.html