数据挖掘常用的分析数据的方法主要有分类、回归分析(regression analysis)、关联分析(Association Analysis)、聚类分析(Clustering Analysis)、可视化分析和偏差分析、分类预测(classificahon&Predication)等,它们是从不同的角度对数据进行挖掘。
2.2 Web挖掘与Web日志挖掘
2.2.1 Web挖掘概述
随着Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,获得想要的数据和规律。Web数据挖掘是从数据挖掘发展而来,是对Web上的文档内容,网络资源进行分析挖掘,找出隐藏其中有用的,隐性的,并且可以最终理解运用的信息。由于网络本身具有的数据量大,动态,异质,无统一结构的特点,使得Web挖掘比传统的数据挖掘要复杂很多。Web数据挖掘已经在各个领域都广泛的应用,不仅应用于网站结构,样式的设计,而且在电子商务上也有非常广阔的发展前景,这也是数据挖掘的重要的热点研究方向。
Web挖掘不同与传统的挖掘,它是以互联网为基础的数据挖掘,由于互联网的特性,Web数据挖掘有如下特点:
(1)Web挖掘数据量庞大。网络上的数据量非常大,是以Tb来计算,并且还在飞速增长中。这就需要我们能准确筛选出有价值的数据信息,并且需要强大的统计分析工具。
(2)Web数据更新频繁。每天网络都会更新或发布新的信息,网络用户也会产生大量新的日志信息。
(3)数据结构复杂。网络上的数据类型、网页样式和结构都是不同的,内容格式远比文本格式复杂。
2.2.2 Web挖掘分类
根据挖掘的对象不同,Web挖掘分为三种:Web内容挖掘、Web结构挖掘、Web日志挖掘。本节主要介绍Web日志挖掘。
(1)Web内容挖掘
Web内容挖掘是对Web文档内容和后台用户数据库挖掘有用的,隐性的信息的过程。Web内容挖掘不仅有文本资源,同时也包括图像,声音等资源。Web内容挖掘可以有效帮助用户过滤无效的信息,同时也可以发现网络信息中隐藏的价值。此外,Web内容挖掘的主要任务是对网络上的数据进行搜集,过滤,分析,建模来支持对Web数据的复杂查询。
(2)Web结构挖掘
Web结构挖掘是指对Web页面之间的链接和Web页面内部的结构中挖掘有用的知识和模式。Web结构挖掘以网络分析和学术研究为基础,目的是为了提高站点结构和搜索性能。Web结构挖掘通常使用两种算法,分别为查询相关和独立算法。
(3)Web日志挖掘
Web日志挖掘(又称Web使用挖掘),主要是通过对挖掘用户日志信息来获取用户行为模式和规律。用户日志中有用户浏览网站时间,访问IP,使用浏览器信息、请求页面URL、服务器端信息等,既能反映出用户的群体共性,也能体现用户个体行为特点。Web日志挖掘在电子商务领域已经得到不少应用。
2.3 Web日志挖掘
用户浏览网页或者其他操作时,会产生相关的记录,形成服务器中的日志文件,这些就是Web日志挖掘的数据来源。Web日志挖掘可以从海量的Web日志中找出有价值的用户访问模式,找出用户使用规律,分析用户偏好,从而提供个性化服务,优化站点结构和发现潜在客户,增加产品竞争力。
Web日志挖掘主要分为三个阶段:数据预处理、模式挖掘和模式分 基于用户心智模型聚类网站产品目录的个性化推荐研究(3):http://www.youerw.com/jisuanji/lunwen_12862.html