(2)置信度:关联规则的置信度(也称可信度)是数据集中包含X和Y的交易数与包含X的交易数之比,记为Conf(X→Y)=P(X/Y),即置信度反映了在包含X的事务中,出现Y的条件概率。如上面所举的啤酒和尿布的例子,该关联规则的置信度就回答了这样一个问题:如果一个顾客购买了啤酒,那么他也购买尿布的可能性有多大呢?在上述例子中,购买啤酒的顾客中有80%的人购买了尿布,所以置信度是80%。
(3)期望可信度:设D中有e%的交易支持数据项集B,e%称为关联规则A→B的期望可信度。期望可信度表达了在没有任何条件影响时,数据项集B在所有交易中出现的概率有多大。如果某一天一共有2000个顾客到商场购买商品,有200个顾客购买了尿布,那么以上表述的关联规则的期望可信度就是10%。
(4)作用度:作用度是可信度与期望可信度的比值,它描述一个数据项集的出现对另一个数据项集的出现影响有多大。由于数据一个项集B在全部的交易数据库中出现的可能性大小是期望可信度;数据项集B出现在有另一个数据项集A出现的事务中的可能性大小是可信度,通过可信度对期望可信度的比值反映了在加入“数据项集A出现”的这个条件后,数据项集B的出现概率发生了多大的变化。在上述例子里作用度为80%/10%=8。
关联规则的准确度用可信度来衡量,关联规则的重要性用支持度来衡量。支持度则表达出此规则在所有事务中的代表性有多大,表明支持度如果越大,关联规则就越重要。虽然有一部分关联规则的可信度很高,但是支持度却非常低,这表示该关联规则在实际中使用的机会非常小,那么就不重要。
从上述关联规则的定义可知,关联规则的提取问题可以分为以下两个方面:
(1).挖掘全部的频繁项目集,也就是找出事务数据库中所有不小于用户指定最小支持度的数据项集,把具有最小支持度的数据项集叫做高频数据项集[7]。
(2) 利用最大数据项集生成所需要的关联规则,据用户指定的最小确信度确定规则的取舍,最后得到强关联规则,根据所获得的频繁项目集产生关联规则。
2.3关联规则挖掘步骤
依据经典的算法Apriori可知,挖掘关联规则分为两步:
(1)找出所有的所满足不小于所设定的最小支持度阈值(min-sup)的项集,即频繁项集(Frequent Item Set);
(2)依据所得到的频繁项集,挖掘出关联规则。对于每一个频繁项集B,找出它所有的子集b,若Support(B)/Support(b)≥min-conf,那么就得到规则b→(B-b)。其中min-conf是已经设定好的最小置信度阈值。
2.4关联规则算法Apriori
2.4.1 Apriori的核心思想
自Agrawal(阿格拉沃尔)等人首次提出了挖掘顾客交易数据库中项集间的关联规则问题以来,研究人员对原有的算法进行了大量研究和进一步优化,提出了例如随机采样、并行等思想,使得挖掘规则算法的效率和伸缩性都有了提高,并且推广了关联规则的应用范围。
关联规则挖掘算法己有许多,最经典、常用的为Apriori[8]和AprioriTid,本文采用算法Apriori。算法Apriori扫描 多遍,第 遍计算 项集。如果顶层项集中元素个数最多的为 ,则该算法扫描 至少 遍,也可能 遍。
算法Apriori通过多次迭代来统计数据库中的频繁项集。第 次迭代统计出频繁 项。每一次迭代有两个步骤:产生候选集,计算和选择候选集。其主要思想简要描述如下:
12.GENRELUS (ANSWER)∥根据强项集产生相联规则
首先产生频繁 项集L1,然后是频繁2-项集L2,如此循环下去一直到不能发现更多的频繁k-项集,算法才停下来。在这第k次循环中,过程首先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做一个(k-1)-连接来产生的。Ck中的项集是用来产生频集的候选集,最终的频集Lk必须是Ck的一个子集。 模糊关联规则及其应用研究(3):http://www.youerw.com/zidonghua/lunwen_2587.html