数据挖掘是从大型的数据集中发现有效信息的一个过程。论文网
数据挖掘的方法有很多种,其中包括分类预测聚类、关联规则挖掘、序列模式挖掘等方法。
1。2 关联规则算法的研究现状与发展前景
第二章 关联规则算法原理
2。1 关联规则的定义
关联规则(Association Rules),是数据挖掘中的一个很重要的课题,被用于从大量的数据集中挖掘出有价值的数据项之间的关系。
关联规则算法通常分为两步: 1)基于支持度,产生频繁项集;
2)基于可信度,产生强关联规则。
关联规则挖掘最初的应用的主要是交易型的数据库。关联规则挖掘中涉及到下面这些基本的概念和定义:
(1)项目(item):数据库中的属性字段;设为所有数据项的集合,中的元素就是项目。
(2)事务(transaction):事务指在事务数据库中,其中一次交易包含的所有不同项目的集合。
(3)事务数据库(transaction in database):;事务数据库由一系列具有唯一标识(Tid)的事务组成,而且tid是有序的。
(4)项集的支持度(support):如果X是一个项集(项目的集合),D是事务数据库,D中包含X的事务的数目与D中总的事务的个数之比称为X在事务数据库D中的支持度,记为:
(5)项集长度:一个项集(项目的集合)包含的所有不同项目的总数就是这个项集的长度。
(6)规则:当并且的时,一个关联规则就可以表示为。
(7)最小支持度(minimum support):用户自己定义的阈值,记作minsup。
(8)置信度(confidence):对形如的关联规则,X、Y是项集,这条规则的置信度就是D中同时包含X、Y的事务的个数,与D中包含X的事务数之比,也就是的支持度与X的支持度之比,如下公式所示:
(9)频繁项目集(frequent itemset):对一个频繁项集X,如果X的支持度大于等于最小支持度minsup,即,就称X为频繁项目集。
(10)最小置信度(minimum confidence):自定义的置信度的阈值,记作mincof。
关联规则算法中,支持度和置信度分别用来决定频繁项集和关联规则有效性。
关联规则的挖掘过程就是:在事务数据库中找出具有用户给定的最小支持度和最小置信度的关联规则的过程。
2。2 关联规则的挖掘过程
经过很多研究发现,进行关联规则算法的实现过程中,可以过滤不必要的计算而节省大量的时间。
关联规则算法分为两个子任务:
①生成频繁项集:找出事务数据库中的所有的频繁项集。
②生成规则:利用频繁项集来提取满足最小置信度的规则。
(1)生成频繁项集
一个有k个项的项集最多可以产生个非空频繁项集。
频繁项集就是通过确定每个候选项目集(Candidate Itemset)的支持度计数。将每个候选项集与数据库中每个事务进行比较。如果一个候选项集包含在一个事务中,那么这个候选项目集的支持度计数加一。这种方式需要的计算量是非常大的,没有可行性。
所以我们需要找到更好的方法。
可以降低生成频繁项集的计算复杂度的方法:
①减小候选项目集的数目。
② 减少比较次数。
(2)生成规则
频繁项集是所有满足支持度阈值的项集,有效的关联规则就是从这些频繁项集中附加置信度要求而提取出来的。