步骤1~4是数据预处理的不同形式,为挖掘准备数据。数据挖掘的步骤可能与用户或者数据库交互。有趣的模式提供给用户,或作为新的知识存放在数据库中。
2.1.3 数据挖掘涉及的技术源:自~优尔·论`文'网·www.youerw.com/
作为一个应用驱动的领域,数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用学习的大量技术,比较流行的有神经网络、决策树、遗传算法和信号分析方法等。
(1) 神经网络。神经网络NM是一种模拟生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。它能仿效人类大脑去解决复杂的问题,并且在不少应用领域取得不小的进展并发挥了巨大的作用。论文网
(2) 决策树。决策树是类似于程序图的树结构。它是以实例为基础的归纳学习算法,它从没有顺序、没有规则的实例中得到树形结构的规则或知识。大多数决策树归纳算法采用从上到下的方式生成(从根节点开始),在决策树的内部节点比较属性值,,并根据问题的特点在该节点产生分支,不同分支代表不同的属性范围。叶节点是要学习划分的类。从根到叶节点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。基本的决策树算法有著名的ID3算法和C4.5算法。为了适应处理大规模数据集的需要,后来又提出了若干改进的算法,其中SLIQ和SPRINT是比较有代表性的两个算法。
(3) 遗传算法。遗传算法GA是采用遗传进化观点的一种新颖的全局优化搜索算法,具有简单通用、鲁棒性强、适用于并行处理及应用范围广的显著特点,已经得到很好的利用。
2.2 WEB挖掘
2.2.1 WEB挖掘简介
对于新闻、广告、消费信息、财经管理、教育、行政管理和电子商务来说,万维网是一个巨大的、广泛分布的全球信息中心。它包含丰富、动态的信息,涉及带有超文本结构和多媒体的网页内容、超链接信息、访问和使用信息,为数据挖掘提供了丰富的资源。WEB挖掘可以定义为利用WEB页面内容、页面之间链接以及用户访问记录、电子商务信息等在内的各种Web数据,使用数据挖掘方法来从中获取知识,为站点管理者优化站点结构或需要大量数据基础的决策提供帮助。
2.2.2 WEB挖掘分类
根据分析目标的不同,WEB挖掘可以被归类成3个主要领域:WEB内容挖掘、WEB结构挖掘和WEB使用挖掘,如见图2.1所示。
(1) WEB内容挖掘
WEB内容挖掘是分析诸如文本、多媒体和结构数据等Web内容,以便理解网页内容,提供可伸缩的和富含信息的基于关键词的页面索引、实体/概念分辨、网页相关性和秩评定、网页内容摘要,以及与Web搜索和分析有关的其他有价值的信息。WEB内容挖掘主要针对文本文档和多媒体两种。文本文档挖掘主要是指挖掘包括TXT、PostScript、PDF、HTML等文本文档等。WEB文本挖掘对数据对象的结构没严格的要求。WEB文本挖掘的成果可以是对某个文本进行总结,也可以是对大量文本集合进行分类得到的成果,当然也可以是进行聚类或者关联分析得到的成果。另外,还可以利用Web上有关文档的内容进行发展趋势的预先推测等。多媒体信息挖掘,主要是从海量Web上的图像、音频和视频数据等多媒体数据进行处理,探究视听特性和语义关系,获取其中的潜在的、有用的信息,实现了知识的挖掘。多媒体信息挖掘在图形和图像处理、语音识别等研究领域有着主要的作用。文献综述