定义2:假如在交易的数据库中出现 比例的交易记录包含 ,称为关联规则“ ”具有 支持度,描述为:support ,最小支持度记作为min_sup。
定义3:假如在交易的数据库中出现 比例的交易记录满足“若包含A就包含B”条件,称关联规则 具有 置信度,描述为:confidence ,最小置信度记为min_conf。满足最小支持度和最小置信度的关联规则称为强关联规则[4]。
定义4:数据项的集合称为项集(itemset),包含 个数据项的项集称为 项集。假如设定的最小支持度min_sup与交易数据库 记录总数的乘积小于一个项集在数据库 中的出现的频度,则该项集符合最小支持度阀值,称该项集为频繁 项集[4]。
3.2 关联规则的几个度量值
现实生活中,关联规则应用的例子很多。零售业是关联规则应用的主要领域,其中一个比较经典案例就是“啤酒与尿布”的关联发现:知识发现人员通过对商场交易的数据进行分析后, 结果他们发现了这样的一条关联规则就是“当买啤酒的男顾客当中有大约七成的顾客会随便买尿布”。知识发现人员对这些信息进一步深入的分析发现, 原来这些孩子的父亲会在自己买啤酒的同时, 也常常会顺便给自己刚出生不久的子女购买一些尿布。通过这样的调查发现研究,从而给商场工作人员提供了一些有用的知识信息, 让他们通过改变商品之间的摆放位置,进而方便购物者的选购。
一个关联规则的属性一般用四个参数来描述:
1.支持度(Support):关联规则的支持度是交易集中同时包含X和Y的交易数与所有交易数之比,记为Sup(X→Y)=P(X∪Y)。反映了X和Y中所含的项在事务集中同时出现的频率。如果某天共有1000个顾客到商场购买物品,其中有100个顾客同时购买了啤酒和尿布,那么上述的关联规则的支持度就是10%。
2.置信度(Confidence):关联规则的置信度(也称可信度)是数据集中包含X和Y的交易数与包含X的交易数之比,记为Conf(X→Y)=P(X/Y),即置信度反映了在包含X的事务中,出现Y的条件概率。如上面所举的啤酒和尿布的例子,该关联规则的置信度就回答了这样一个问题:如果一个顾客购买了啤酒,那么他也购买尿布的可能性有多大呢?在上述例子中,购买啤酒的顾客中有70%的人购买了尿布, 所以置信度是70%。
3.期望可信度(Expected confidence):设D中有e%的交易支持数据项集B,e%称为关联规则A→B的期望可信度。期望可信度描述了在没有任何条件影响时,数据项集B在所有交易中出现的概率有多大。如果某天共有1000个顾客到商场购买物品,其中有200个顾客购买了尿布,则上述的关联规则的期望可信度就是20%。
4.作用度(Lift):作用度是可信度与期望可信度的比值。作用度描述数据项集A的出现对数据项集B的出现有多大的影响。因为数据项集B在所有交易数据库中出现的概率是期望可信度;而数据项集B在有数据项集A出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“数据项集A出现”的这个条件后,数据项集B的出现概率发生了多大的变化。在上例中作用度就是70%/20%=3.5。
可信度是对关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。
期望可信度描述了在没有数据项集A的作用下,数据项集B本身的支持度;作用度描述了数据项集A对数据项集B的影响力的大小。作用度越大,说明数据项集B受数据项集A的影响越大。一般情况,对人们有用处的关联规则其作用度全部应大于1,因为只有当的期望可信度比关联规则可信度小时,才能说明A的出现对B的出现是有促进的作用,反之,如果当作用度小于1时,说明这样的关联规则没有什么意义。 模糊关联规则知识发现算法研究+文献综述(4):http://www.youerw.com/tongxin/lunwen_1529.html