毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
Apriori算法关联规则挖掘技术研究(3)
Ei-Hajj等人[18]提出了一种基于反转矩阵的算法,它类似于FP-Growth算法,该算法首先将数据库映射为一个基于磁盘的反转矩阵,然后针对该反转矩阵在内存中建立COFI(Co-Ocurrence Frequent Item)树,利用COFI树发现频繁项目集。实验结果表明,该算法优于Apriori和FP-Growth,对于超大规模数据库和较小支持度的情况,优势更加明显。另外,反转矩阵的结构特点决定了它便于实现并行挖掘算法。
1.2.4 关联规则挖掘算法的进一步发展
除了上述基本关联规则挖掘算法研究,人们还进行了诸如多层关联规则、量化关联规则、基于约束的关联规则、时态关联规则、空间关联规则等类型关联规则挖掘算法的研究。
Srikant和Agrawal从广义关联规则挖掘的角度研究了多层关联规则挖掘问题,多层关联规则挖掘利用概念分层的背景知识在更高的抽象层次上挖掘关联规则,从而解决了稀疏数据中关联规则的支持度阈值过低而难以挖掘的问题。
Srikant等人通过将数值型数据划分为不同区间的方法,在这些区间之上进行定量关联规则的挖掘。
为了克服Agrawal频集方法的缺陷,人们还提出了一些新的关联规则挖掘方法。 关联规则挖掘技术正蓬勃发展着。
2 关联规则挖掘基本概念
2.1 基本概念和问题描述
设I={i1, i2,…, im}是项的集合,其中的元素称为项(item)。记D为事务T(transaction)的集合,这里事务T是项的集合,并且T∈I 。对应每一个事务有唯一的标识,如事务号,记作TID。设X是I中项的一个集合,假设X包含于T,那么称事务T包含X。
一个关联规则是形如X=>Y的蕴涵式,这里X包含于I, Y包含于I。规则X=>Y在事务数据库D中的支持度(support)是事务集中包含X和Y的事务数与所有事务数之比,记为support(XY),即support(XY)= P(X Y)。规则X=>Y在事务集中的可信度(confidence)是指包含X和Y的事务数与包含X的交易数之比,记为confidence(XY),即confidence(XY)= P(X|Y)。给定一个事务集D,挖掘关联规则问题就是寻找支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。
2.2 关联规则的种类
我们将关联规则按不同的情况进行分类:基于规则处理的变量类型、基于规则中数据的抽象层次以及基于规则中涉及到的数据的文数。
2.2.1 基于处理的变量类型
基于规则处理的变量类型,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多文关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。
例如:性别:女与职业:秘书 ,是布尔型关联规则;性别:女与avg(收入):2300,其中涉及的收入是数值类型,所以是一个数值型关联规则。
2.2.2 基于数据的抽象层次
基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。
例如:IBM台式机与Sony打印机,是一个细节数据上的单层关联规则;台式机与Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
2.2.3 基于数据的文数
基于规则中涉及到的数据的文数关联规则可以分为单文的和多文的关联规则。
在单文的关联规则中,我们只涉及到数据的一个文,如用户购买的物品;而在多文的关联规则中,要处理的数据将会涉及多个文。换成另一句话,单文关联规则是处理单个属性中的一些关系;多文关联规则是处理各个属性之间的某些关系。
共6页:
上一页
1
2
3
4
5
6
下一页
上一篇:
JSP+Mysql网上停车位预订系统设计
下一篇:
VC++BMP图像的读写打印以及剪贴板操作
基于Apriori算法的电影推荐
基于PageRank算法的网络数据分析
基于神经网络的验证码识别算法
python基于决策树算法的球赛预测
加密与解密算法的研究【1931字】
一種删除准则的NOMA资源联...
vc++几种排序算法演示软件实现
承德市事业单位档案管理...
AT89C52单片机的超声波测距...
志愿者活动的调查问卷表
国内外图像分割技术研究现状
10万元能开儿童乐园吗,我...
C#学校科研管理系统的设计
医院财务风险因素分析及管理措施【2367字】
中国学术生态细节考察《...
公寓空调设计任务书
神经外科重症监护病房患...