关联规则算法分析数据挖掘研究(2)

时间:2021-04-11 13:24 来源:毕业论文作者:毕业论文点击:次

第三章，对关联规则的经典算法进行分析，深入研究了Apriori算法的思想和步骤，并设计实现了Apriori算法，在最后还分析了其性能瓶颈。

第四章，论述了关联规则的改进算法，主要是基于数据分割、散列的方法，能够提高算法的处理效率。

2 数据挖掘与关联规则概述

2．1 数据挖掘概述

数据挖掘(Data Mining)是一个多学科交叉的研究领域，它融合了数据库技术(Database)、人工智能(Artificial Intelligence)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(knowledge Engineering)、面向对象方法(Object-Oriented Method)、信息检索(Information Retrieval)、高性能计算(High-Performance Computing)以及数据可视化(Data Visualization)等最新技术的研究成果，经过十多年的研究，产生了许多新概念和新方法。数据分析本身已经有很多年的历史，只不过在过去数据收集和分析的目的是用于科学研究，另外，由于当时计算能力的限制，对大数据量进行分析的复杂数据分析方法受到很大限制。现在，由于各行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。但所有企业面临的一个共同问题是：企业数据量非常大，而其中真正有价值的信息却很少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。文献综述

　　因此，数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。

广义的数据挖掘与数据库中的知识发现(KDD)具有相同的含义，即都是从大量的数据中提取出对人们有用的规则、规律和模式的过程。该定义包含了以下四层含义：

1）原始数据必须是大量的、真实的；

2）发现的知识是用户感兴趣的、潜在有用的；

3）发现的知识要可理解、可接受、可运用；

4）发现的知识并不要求放之四海而皆准，它都是相对的，有特定的前提和约束条件的，是面向特定研究领域的。

数据挖掘商业角度的定义是，一种新型商业信息处理技术，其特点是对商业数据库中大量业务数据进行抽取、转换、分析以及其他模型化处理，从中提取出辅助商业决策的关键性数据。

数据挖掘的两个基本任务是预测和描述。预测任务的目标是根据其它属性的值，预测某些特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable)，而用来做预测的属性称为说明变量(explanatory variable)或自变量(independent variable)。

描述任务的目标是导出概括数据中所潜在的联系模式(相关、趋势、聚类、轨迹和异常)。本质上讲，描述性数据挖掘的任务通常是探查性的，而且常常需要后续处理技术的验证和解释结果。

数据挖掘的过程，同时也是知识发现(KDD)的过程，而KDD又是一个反复迭代的人机交互的处理过程。该过程需要经历诸多步骤，而且其中的许多决策都需要由用户提供。从宏观上讲，KDD的过程主要包含三个部分，即数据整理、数据挖掘和对结果的解释与评价。

在上述过程中，数据挖掘占据着非常重要的地位，它利用某些特定的知识发现算法，在一定运算效率的范围内，从数据库中发现有用的知识，最终决定了整个KDD过程的效率与效果。 (责任编辑：qin)

关联规则算法分析数据挖掘研究(2)

时间:2021-04-11 13:24 来源:毕业论文 作者:毕业论文 点击:次

时间:2021-04-11 13:24 来源:毕业论文作者:毕业论文点击:次