数据库中的知识发现(KDD)是指采用不同于传统分析的算法对数据分析得到隐藏在其中的普遍适用的、有意义的模式的过程[3, 4]。实际上,KDD的目标在于发现简洁的、有用的并且未知的模式。
知识发现过程是一个使用数据挖掘技术,根据一些特定的度量方法和阈值提取有意义知识的交互和迭代式多阶段过程,如图1.1所示。从上述图中可以看出来,数据挖掘是知识发现过程中介于数据整理之后规则产生之前的一个核心步骤[3]。
数据挖掘的任务可以分为如下5种:①概念描述:是指采用挖掘技术对数据进行特征化与区分。数据的特征化是指根据一定的特征标准通过比较分析将具有相似特征的数据从目标数据中筛选出来组成集合。数据的区分是指根据一定的区分标准把目标数据与类似的数据进行比较。②关联分析:是指从大量数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式[4]。③分类与预测:分类是通过对已有数据进行分析,得到数据的一般特性,从而产生能够描述并区分数据类别的模型,以便可以通过模型对未知类别的数据预测其所属的类别。当分类不是用来预言类标签,而是用来预测空缺的或未知的数据值,获得未来变化的趋势,则称为预测。④聚类:与分类和预测不同,聚类分析的数据对象是类别仍是未知的目标数据[4]。根据类内相似性最大、类间相似性最小的原则,构建聚类准则函数,对目标数据进行多次迭代聚类,得到最准确的分类结果。⑤孤立点分析:数据库中往往会因为偶然性或随机性的错误操作或误差导致存在一些数据,明显偏离数据的一般行为或模型,这个就是所谓的孤立点。孤立点可以通过统计数据库的数据分布进行检测,根据数据的特性构建合适的距离度量函数,距离差异异常明显的单个数据点的即可以断定为孤立点。⑥演变分析:根据时间的推移跟踪目标数据对象的行为变化,分析得出反应对象行为特性的规律和趋势。
图1.1 KDD过程
数据挖掘的典型方法和技术如下:①归纳学习:其中包括了信息论和集合论方法两方面。信息论方法又称决策树方法,典型方法有ID3方法、C4.5方法、IBLE方法。集合论中最有代表性的方法就是粗糙集,包括概念树、AQ等等[3]。②仿生物技术:人工神经网络方法和进化算法因为这两种方法的计算智能性占有非常重要的地位。③统计分析:应用数学中的统计学原理根据问题需求对数据进行各种分析,包括数据相关分析、回归分析、差异分析、聚类分析及判别分析等等的方法。④模糊论:根据模糊集理论对实际问题中存在的模糊性概念进行模糊评判、模糊决策、模糊识别和模糊聚类等等模糊性的方法。⑤可视化数据分析:不仅仅局限于传统的图表显示功能,而采用图形图像技术用更加视觉化的手段传递清晰、有效的信息,使用户更容易理解数据。
1.3 论文的研究内容及组织结构
关联规则通常是对布尔型数据的挖掘.为处理现实中更常见的数值型数据,需要研究量化关联规则的挖掘.如采用划分区域, 将定量关联规则的挖掘转化为布尔型关联规则的挖掘. 然而区域划分的方法有显而易见的缺点, 即锐利临界值(Sharp Boundary) 问题. 因此, 模糊集理论被引入到量化关联规则的挖掘中,以实现一些模糊关联规则的挖掘算法. 这些算法较好地解决了锐利临界值问题, 但是需要专家给出隶属度函数,这在很多时候是不现实的. 本设计拟采用先进行聚类,再进行关联规则挖掘的方法, 可以有效解决这个问题。
论文框架如下:源:自~优尔·论`文'网·www.youerw.com/