数据挖掘的第一步就是要清楚地定义出业务问题,紧接着再从研究目的着手确定数据挖掘的研究方向,这是核心也是最为关键的一步。挖掘的最后结果是错综复杂,变化无常,时常难以预测的,但是通过要探索的问题的清晰可见是完全可以解决。
2。数据准备
数据准备需要经过是三个过程:首先要对数据进行筛选和抉择,进而进行数据的预处理从而为数据的变换提供依据。所谓的数据选择就是指要在收集准备一切和业务对象相关的数据信息之前,选取能够在数据挖掘应用中有实际价值的数据,最终提炼出目标数据。数据预处理指的是对获取的相关数据进行一系列的适应性处理,使它符合数据准备的要求,为进一步的分析做准备。它的主要工作包括检查拼写错误,去重检验,补充残缺记录,转换数据类型等。数据变换主要是指是通过挖掘的算法,将杂乱无章的数据通过建立的模型进行分析。在这个模型的基础分析模型适用与否,这是本文研究数据挖掘成效的关键所在。
3。数据挖掘
所谓数据挖掘就是对准备好数据信息进行实际有效的挖掘。这个工作开展的流程比较明确。首先通过算法规划,确定数据挖掘方法,譬如数据总结规划、聚类分析、分类规则、以及关联规则发现等。紧接着,选择一种合适的算法有针对性的研究数据挖掘的方式,因为算法的选择合适与否直接影响着所挖掘模式的质量和品质,需要慎之又慎。等到这些准备工作都完成之后,就可以充分运行数据挖掘算法,这就是真正意义上的数据挖掘。
4。结果表达和解释
结果产生后课通过不同方式表达。要解释产生结果并评价,一般会使用可视化技术。最后,结合所获取的知识信息和目标需求,将收集到的信息和知识编入业务信息系统的组织结构中去,有机的组合起来。
2。3数据挖掘主要解决的问题及其常用方法
数据挖掘清晰明了的界定了它所能解决问题的范畴,主要是以下几个问题:分类、聚类、关联、预测。解决方法就是数据挖掘的实际应用在几类问题中的演绎推理过程。接下来,将对这四类问题的界定的进行简要的说明介绍:
1 分类问题
作为预测性问题的一种,分类问题它能预测一个未知类别的问题属于哪个类别。它和普通预测问题的区别在于分类问题预测的结果只是一个类别而不像其他普通预测一样会得到一个具体的数值。分类的目的是学会一个分类器或者说得到一个分类函数和分类模型。
分类算法作为解决分类问题的一种方式。它通过分析已知类别数集,从中发现分类规则,然后预测新数据的类别。分类算法的应用非常广泛,不管是文本检索、搜索引擎分类还是客户类别分类、银行中风险评估以及软件项目的应用都能看到它的身影。从使用技术的差异上上看,分类方法归纳为以下四种类型:
(1)基于距离的分类方法
(2)基于决策树分类方法
(3)基于贝叶斯分类方法
(4)基于规则归纳方法
2 聚类问题
聚类是根据数据的相似性分成若干个不同的类,把相似程度高或者一致性强的数据对象分在同一类里,而另外的相似度不一致的数据差异较大作为不同类中处理。聚类问题则是根据研究对象给定的指标,对对象进行分类,主要解决根据某种依据划分成若干个组别而关联度不明显的问题。聚类问题的重点在其对象划分依据。
聚类分析作为独立工具使用时,其用途包括有获取数据分布情况、观察每个类的行为特征和深度分析特征类等强大功能。它主要通过神经网络方法、统计分析方法以及机器学习方法来解决分类问题。