数据挖掘技术的发展数据挖掘,指的是在数据库中寻找各种数据得出知识,指的是在有着庞大数量、各种破碎片段、没有明确清晰概念、带有着也许没用杂质的和复杂多变随机的数据中,提炼出隐藏在这些数据中、无法直接从中看出所要的信息、但是对于使用者来说其实期中试含有非常重要的潜在内容的一种方式。数据挖掘技术的应用极为广泛,数据挖掘技术同时贯穿了不同领域各种各样的科学知识比如AI人工智能计算机学习、连接数据库、数据可视化,统计学等。数据挖掘技术面向的领域是属于应用层面上的,不单单是对某个库的数据进行单纯的搜索检索,还有对于数据不同的方面、不同层次角度的整理整合、统计计算,分析推算和综合分析,来解决需要面对的某些问题,或者是寻找出某些数据问题之间的共同点,又或者是对某些情况的预测,对于一些风险的规避。
数据挖掘简称dm,是data-mining的缩写,最早出现在1989年,出现的这个词语简称kdd。KDD在意义上与数据挖掘极其相近,是知识发现的简写即Knowlodge discovery in database,具体含义就是英文字面理解,在数据库存储的信息中心寻找知识。该次出现的具体地点在美国底特律,一场八月份举行的关于人工智能的专题讨论会。在随后的几年里,发展出了专门讨论数据挖掘技术的会议,于1993年后更是形成了一年一度的kdd会议来专门讨论研究数据挖掘,并且由原本的专题会议逐步演变成了国际会议。80813
在内容上,也在随后的几年中逐步转向数据挖掘的应用方面,并且在注重点上将注意力集中在了发现的方式以及集成技术上,优化了数据发现的策略,将算法集成地更加合理简洁,并且同时也注重与其他各种的科学学科的渗透之中也就是在各个不同领域之间的应用。于1998年起,在第四届KDD与数据挖掘国际会议上,超过30家公司开发并发行了数据挖掘软件,并且在之后的几年内飞速发展,在北美和欧洲国家之间得到了广泛的应用。
在中国,数据挖掘技术起步相对较晚,我国对数据挖掘的研究大致出现在2000年前后,发表的有关数据挖掘研究的文章主要在2000之后开始增加。发展历程也是相对接近于国外的发展历程,由计算机学习识别这类的工程研究中提炼出数据挖掘的聚类技术。聚类是国内外数据挖掘中用到最多的。群分析是聚类的另一种说法,这是一种统计的方法,用于研究样本或是指标这类的问题。聚类方法多种多样,要做出简单的区分还是比较有难度的,就比方说许多类的部分内容是相似重叠的,这使得某种方法的特征不仅仅只有一个类,而是包含多个。方法主要有下面这几种:
(1)划分法:将数据集分成不同的分组,每个分组就是一个聚类。论文网
(2)层次法:对数据集进行不断地分层直到满足设定的条件为止,可以自顶向下也可以自底向上。
(3)密度算法:基于密度,满足某个区域中的点的密度比某个关键点的值大,就将其归类到和他比较相近相似的聚类里。
(4)网格算法:将数据的空间分解成有穷单元网格的网络结构,所有的处理都是以单一的一个单元格作为对象。
(5)除此之外还有图论聚类法和模型算法。
2、在电子商务领域的应用
在电子商务的交易过程中,无论是买家卖家,都会留下大量的数据不断积累,卖家之间的商品买卖,卖家的交易记录,各种数据的变动更新,使数据挖掘技术能在电商领域的应用非常广泛非常重要,也是对于从事电商行业的人来说非常合适的选择。