摘要关联规则挖掘算法是数据挖掘算法中的重要研究方向之一,经过了长期的研究与发展,已经在频繁模式挖掘算法的设计和优化方面趋于成熟,广泛的应用在互联网、金融、生物信息等领域。本文就对关联规则算法进行了系统的学习和研究。86910
本文介绍了关联规则挖掘算法的研究现状,全面的介绍了关联规则算法的基本概念:频繁项集、支持度、置信度等概念,以及关联规则算法的思想与关联规则挖掘的步骤。重点介绍了经典的关联规则算法Apriori算法具体步骤,分析了Apriori算法的缺点,并且简单介绍了Apriori算法的改进方法。
最后,本文使用python语言编写了一个完整的Apriori算法程序,并收集了关于超市交易方面的数据集。然后,使用编好的程序对数据集进行测试,并给出其中的关联规则。
毕业论文关键词:关联规则;Apriori算法;频繁项集
Abstract The association rule mining is an important research field of data mining。 After a long period of research and development, the association rule mining algorithm has already been matured in design and optimization of frequent pattern and the association rule mining, and widely used in the areas of Internet, finance, and bioinformatics。 In this paper, we make a systematic study and research into the association rule algorithm。
This article introduce the research status of the association rule mining algorithm, the basic concepts of the association rules algorithm which include concepts of frequent itemsets, support and confidence, the thought of association rules algorithm and steps of association rule mining。 We focus on concrete steps of the classical apriori algorithm in association rule algorithms and analyze the shortcomings of apriori algorithm, and briefly describes an improved method of apriori algorithm。
Finally, based on the theory above, using python language we write a complete program about apriori algorithm, and collecte the supermarket transaction data collection。 Then this article use this program to test data sets and give association rules。
Keywords: the association rule; apriori algorithm; frequent itemsets
目 录
第一章 绪论 1
1。1 数据挖掘 1
1。2 关联规则算法的研究现状与发展前景 1
第二章 关联规则算法原理 3
2。1 关联规则的定义 3
2。2 关联规则的挖掘过程 4
2。3 Apriori算法 5
2。4 Apriori算法的缺点 6
2。5 Apriori算法的优化方法 6
第三章 Apriori算法的python实现 7
3。1 关联分析 7
3。2 Apriori原理 8
3。3 用Apriori算法寻找频繁项集 9
3。3。1 生成候选项集 10
3。3。2 完整的Apriori算法 11
3。4 从频繁项集中挖掘关联规则 12
3。5 挖掘超市交易数据集中的关联规则 15
结论 20
致谢 21
参考文献 22
第一章 绪论
1。1 数据挖掘
数据库技术从20世纪80年代开始,在这30年不断的普及与应用,并随着最近10年互联网的发展,业务数据量急剧增长,呈现出“数据爆炸”的现象。但是,据调查在产生大量数据的同时,占比很大的一部分数据在进入业务系统以后,未得到有效的使用,也就是“数据丰富,信息贫乏(Data Rich and Information Poor)”。所以,如何从庞大的现有数据中挖掘出有价值的信息就成为一个很重要的研究课题。