关联规则挖掘算法在超市消费关联性中的研究(3)

聚类，作为数据挖掘的第一步，就是把相似的数据放在一起，这样就使得同一类中的数据相类似，不同类中的数据相异。聚类与分类不同的是，不需要事先定义好类，还可能发现数据属性之间的关系。

分类，就是找出一个类别的概念描述，这个描述代表着这一类数据的内涵描述，并来构造模型，常常用决策树模式或规则表示。类的个数是预先定义好的，是确定的，这一点与聚类是不同的。

关联规则或相关性分组，是由Agrawal等人首先提出，分为因果关联、时序关联、简单关联，旨在发现重复出现的数据之间的某种规律，找出关联规则。就如尿布与啤酒的故事一样，超市里客户在购买尿布的同时常常会买啤酒，关联规则就决定了买尿布与买啤酒这两件事情会一起发生。这一方法也是本文用到的方法。

数据挖掘是研究多个领域的知识的交叉，并且应用于多个领域。我将它分为四个步骤：问题定义、数据准备、数据挖掘实施、数据挖掘结果评估。

首先，必须明确任务的具体要求，也要确定将要使用的方法；其次，就是比较重要的步骤数据准备，它直接影响准确度和效率，这个过程包括选择、预处理和转换；接着，就是最关键的也是最难的一步——选择适合的算法，进行数据挖掘；最后，对获得的结果进行过滤处理，如果符合要求就直接拿出有用信息，反之，就还需要重新回到挖掘阶段，选择数据变换方法，重复以上挖掘过程直到得出有价值的信息。

2。2 关联规则

关联规则（Association Rules）就是像的蕴含表达式，其中，是关联规则的先导，是关联规则的后继，先导可以含有一个甚至多个条件，而后继一般只有一种情况，并且和是不相交的两个项集。关联规则中，存在支持度（support）亦即覆盖度和置信度（confidence）亦即可信度。

支持度，置信度，其中表示同时出现和的事务数，表示事务的总数，表示含有的事务数。

则支持度表示数据库中事务同时包含的百分比，即概率；置信度表示数据库中事务已经包含的情况下，又包含的百分比，即条件概率。

根据韩家炜等人的观点，又可以将关联规则描述为：假设是项的集合，由m个不同的项目组成。给定一个数据库D，其中每个事务是的非空子集，是所有事务的集合，其中n为所有事务的总个数，每一个交易都有唯一的对应，即标识符TID。文献综述

关联规则可以分为多种类型，我们可以根据不同的标准将关联规则分为以下类别：

1。基于关联规则中数据所涉及的抽象层次，可以将其分为多层关联规则、单层关联规则。如果数据项描述充分考虑了数据的多层性，像买bb霜、隔离霜的人也会买护肤品，这就叫多层关联规则；相反，如果数据项描述没有充分考虑数据的多层性，只涉及单一层次的概念，就叫单层关联规则。

2。基于关联规则中数据所涉及的维数，可以将其分为单维、多维。其中项或属性只涉及一维就叫单维关联规则，它处理单个项中的关系，比如买的东西：啤酒=>尿布；如果涉及两个或更多的维就叫多维关联规则，它处理各个项之间的关系，比如性别=‘男’=>职业=‘保镖’。

3。基于关联规则中所处理的变量的类型，可以将其分为布尔型、数值型。如果只考虑项的存在与不存在，就叫布尔关联规则，它表明了分类对象间的联系；而数值型关联规则就是形如性别=‘男’=>收入=5000，这里的收入是一个数值类型。

关联规则挖掘技术已经广泛应用于许多领域，如金融领域，对银行、保险业务的数据进行挖掘，发现隐藏的规律；教育领域，对学生信息库里的信息进行挖掘，防患于未然；电子商务领域，对销售数据进行挖掘，设置捆绑包或者进行交叉销售。但是，挖掘技术在商业银行中并没有流行起来，金融业的大多数数据库还只是停留在数据的录入、查询等基本功能上。关联规则挖掘算法在超市消费关联性中的研究(3):http://www.youerw.com/shuxue/lunwen_86670.html