1 引言数据挖掘(Data Mining)是指从大量的、不完全的、有噪声的、模糊的、随机的、实际应用数据中提取出隐含在其中的、事先不为人知的、但又是潜在有用的信息和知识的过程。信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。如何充分利用这些数据信息为企业决策者提供决策支持成为一个十分迫切的又棘手的问题,人们除了利用现有的关系数据库标准查询语句得到一般的直观的信息以外,必须挖掘其内含的、未知的却又实际存在的数据关系。著名的Apriori算法是一种挖掘关联规则的算法。65325
1.1 研究背景
近年来,随着计算机技术、网络技术、数据库技术的迅猛发展,人们所拥有的数据信息量急剧增加。然而,置身于数据的海洋中,人们却又面临着知识匮乏的问题。大量的数据信息在给人们带来便利的同时也带来了一连串的问题:首先,信息过量,难以消化;其次,信息真假难以辨识;再次,信息安全难以保证;最后,信息形式不一致,难以统一处理。面对如此庞大的信息量,如何对这些历史数据进行分析并用于预测未来的行为;如何从如此海量的数据中挖掘有用信息,把被动的数据变为主动的知识;如何准确快速地获取有价值的网络信息和服务,为用户提供未知的、重要的知识和信息,着实是项艰巨而又复杂的工作。
数据挖掘技术就是在这种背景下应运而生的,他的提出,使人们最终有机会、有能力认识到数据的真正价值所在,即蕴藏于数据中的有用的知识和信息。
在数据挖掘的数据处理过程中,最为关键的是数据挖掘的方法[1],目前常用的有如下几类:
1) 关联规则算法:关联规则挖掘是数据挖掘的一项重要任务。其目的是从事务数据库、关系数据库中发现项目集或属性之间的相关性,关联关系,因果关系等内在的联系[2]。
2) 分类和聚类算法:分类是对数据集进行学习,并构造出一个拥有预测功能的分类模型,用以预测未知样本的类标号,将其映射到某个预先给定的类标号中;聚类是将数据集划分为若干对象组成的多个组或簇的过程,使得同一组中对象间的相似度最大化,而不同组中对象间的相似度最小化[3]。分类和聚类的区别在,聚类事先不知道类别数和各类的典型特征,而分类事先明确这些特征。
3) 机器学习算法:大多数机器学习算法使用人类的认识模型、模仿人类的学习方法从数据库中汲取知识。论文网
4) 神经网络算法:人工神经网络是一种由人工建立神经元的、有着模拟人脑结构与功能的有向拓扑结构和学习规则的动态信息处理系统[4]。其本身有良好的鲁棒性、自组织自适应性、分布存储、并行处理和高度容错等特性,适合于解决数据挖掘的各类问题。
关联规则算法就是在这种背景下,蓬勃地发展起来的,越来越多的专家、学者对其产生了浓厚的兴趣,提出了各式各样的算法。
1.3 本文的研究内容及组织结构
本文首先对现有的数据挖掘技术做了整体分析,对数据挖掘技术的热点研究领域进行探讨,为本课题的全面开展奠定了基础。随后,着重研究了关联规则挖掘的重要算法,深入分析了Apriori算法的思想、步骤,总结该算法的优缺点,对其存在的两大瓶颈问题深入研究。基于该研究内容,本论文的组织结构如下:
第一章,介绍了论文的研究背景和意义,分析了国内外的研究现状,并阐述了本文的主要工作和论文的组织结构。
第二章,主要阐述了数据挖掘的研究现状以及所面临的问题,并深入研究了关联规则的概念、分类以及具体的挖掘步骤和评价方法。