4.4.1 应用FCM算法将数量型属性离散化
对于数量型数据,顺序挖掘算法一般采用FCM算法[11]划分数量型的属性,FCM聚类算法是用得较多的一种无监督模糊聚类算法。
设 是一数据库, 表示T的第j个记录, 为属性集,其中,属性 为数量型的属性,属性 为类别型的属性,有q个取值(即类标签),表示为记录下其所属的类, 表示第j个的记录为属性 的取值。首先我们采用模糊c-均值(fuzzy c-means,FCM)算法把数量型的属性划为多个用三角的模糊数来表示它的模糊集。设
X是样本点的集合,将X划分成c个模糊集,它的FCM算法运算过程如下:
Step1:取定c, ,取定m,将矩阵 进行初始化,设置其循环的次数s,s=0,1,2,…。
Step2:用 计算c个向量 , 。
Step3:修改 。记 ,假如对每一个i,对所有的 ,都有 ,则 ;否则,如果 ,则 和 。
Step4:取出合适矩阵范数 ,取定ε,ε为任意小实数,如果 ,则停止循环;否则,置 并返回Step2。
把记录在数量型的属性 上取值放在一起同时作为目标数据集X,设X有n个样本点。取 ,矩阵范数是矩阵中所有元素的最大值,将矩阵 进行初始化,为了使得FCM算法能够得出人们所期望的结果, 中所有的元素都应尽可能的不让其相等。用FCM算法将X模糊聚类,然后得出划分的矩阵U和C个中心 ,比较中心 ,根据中心的大小依次确定模糊集等级,最大的中心对应最大模糊集等级,其他类似。同时最大中心所对应的U中行的元素即是n个样本点在最大模糊集等级上的隶属度。
4.4.2 模糊关联规则知识发现算法的关键步骤
模糊关联规则的知识算法的步骤主要是先通过相关的计算求出支持度来找出最大的频繁模糊的项目集,然后从最大的频繁模糊的项目中找出我们所需要的规则待定选集,最后就是对规则待定选集求出置信度,这样我们就计算出最后所需要的模糊关联规则。详细步骤如下:
输入:数据库 ,最小的支持率,最小的信任度。
输出:模糊关联规则
Step1:采用FCM算法离散给定数量型的属性,同时将给定的数量型属性上所有的取值全部划分成多个模糊集的等级。
Step2:通过我们输入的数据库 构成一个新数据库,新数据库模糊属性我们可以用数量型属性不一样的模糊集的等级。
Step3:计算所有在新的数据库中1-模糊属性集的模糊的支持率,得出全部的1-模糊频繁的属性集。
Step4:组合1-模糊频繁的属性集,当有同一个 标记的1-模糊频繁的属性集不需要组合,这样我们就得到2-模糊待定属性集。
Step5:求解全部的2-模糊待定属性集它的模糊支持率,把所有不大于最小支持率的2-模糊待定属性集都删除。得到全部的2-模糊频繁的属性集。
Step6:结合第一个的模糊属性一样的2-模糊频繁的属性集,得到全部的3-模糊待定属性集。
Step7:查看3-模糊待定属性集的全部子集:2-模糊频繁的属性集,把3-模糊待定属性集中包含不为2-模糊频繁的属性集都删除,求出剩余的3-模糊待定属性集模糊的支持率,把小于最小支持率的3-模糊待定属性集删除,得到全部的3-模糊频繁的属性集[8]。
Step8:一直持续下去,直到我们发现全部的k-模糊频繁的属性集。
Step9:从全部的模糊频繁的属性集中自动生成出不小于用户所期望的最小信任度的模糊关联规则。
5. 模糊关联规则知识发现算法的相关应用
运用模糊关联规则知识发现算法对局域网的流量进行分析,通过对网络属性数据库的挖掘来说明模糊关联规则知识发现算法的正确性与有效性[9-11]。 模糊关联规则知识发现算法研究+文献综述(7):http://www.youerw.com/tongxin/lunwen_1529.html