从本质上来说,数据挖掘就是“从大量数据中获取有效的、潜在有用的并且最终可理解的知识或模式的非平凡过程”。可以这样理解,就是从大量的数据里提取或者“挖掘”知识。数据挖掘涉及统计学、数据库、人工智能和机器学习等多个领域,是一门交叉学科。其工作的简要过程,如图1所示
数据挖掘的主要方法有分类,预测,关联分析,聚类,时序模式分析及偏差分析等这些。数据分类,是数据挖掘中一项非常重要的技术,一直是研究的热点之一。数据分类,是数据挖掘中一项非常重要的技术,一直是研究的热点之一。分类器是好还是坏将直接影响分类结果的准确性和数据挖掘的效率,不同的分类算法将产生不同的分类器,分类大规模海量数据时,选择最合适的分类算法是非常关键的。
近年来,国内外对于数据挖掘分类算法的研究不曾停止,其主要集中在以下两个方面:第一,是直接将传统的分类算法或者组合应用到实际案例中,开发出各种应用系统;第二,是对传统分类算法进行改进或在小数据集上验证各种改良算法。然而,从更深层次而言,对各种分类算法进行深入的对比研究的然而并不多。
数据挖掘所获得的信息具备了预先未知、可实用以及有效性等显著特征。数据挖掘并不是为了代替传统的分析统计技术,相反的,数据挖掘是传统分析统计方法学的扩展。数据挖掘技术的出现和发展,使得数据库技术进入了一个更为高级的发展阶段,它不仅能够查询以往的数据,而且可以找到以往数据间的潜在联系,推动了数据信息的传播,使未来的社会更加智能化。
1.3 数据挖掘方面的研究进展
1.4 物联网中的数据挖掘的发展
物联网是下一代网络,数以万亿计的节点来代表各种对象。很多年前,IBM公司就提出了IOT的概念,而今,智慧地球,智慧城市,智能交通,智能家居的概览都已朗朗上口,国内已有很多的公司和研究院在研究。
从技术上来讲,物联网是传感器网络的集成,包括RFID(射频识别技术)和无所不在的网络。所以,每天,物联网都将产生大量的信息。例如,当一个规模中等的超市引入RFID技术供应链。而每个RFID标识都包括3个部分:时间,地点,EPC(RFID读者的唯一标识)。估算一下,一个超市大约有600000万的RFID记录,每个记录用18字节储存。那么假设每秒钟都有人在浏览记录,那么就有10.8GB的数据流产生,那么每天就会产生500TB左右的数据。可见,数据量是极其巨大的。所以,发展有效的思想和算法去管理、挖掘、分析数据是非常必要的。
从以上的分析可见,对于RFID的数据流的分析是有必要的。而实际中,确实有对于RFID的数据流分析的研究。Hector Gonzalez等人提出了用于储存RFID信息的模型,能很好的保护数据对象并压缩数据总量。他们建立RFID的立方体模型,即通过3张表来管理信息:(1)信息表,存储物品的相关信息;(2)停留表,存储物体所在的位置信息;(3)地图表,存储用于分析的结构路径信息。他们使用流程图的方法来表示商品的运输过程,并可以捕捉运动轨迹和重要的RFID异常。
在GPS应用上,也有研究者涉足。有研究者提出了新的框架,用于移动物体的异常检测;也有研究人员提出了,基于运动目标的运动轨迹的孤立点的分割检测框架。在某个国度,他们的交通情况并不是那么的良好。他们的城市中,有很多坑坑洼洼的路段的,于是他们想出了通过传感器和大数据分析技术,寻找基于整个路况的布局,并加以导航技术,能很好的避免车子的耗损和交通事故的发生。当然,这也只是个大数据的分析的例子,当政者更应该去修建条件好的公路。但我们应该感受到了,随着车辆的越来越多,每当遇到拥堵情况时候,一旦你打开广播的话,你可能听到广播员会提醒驾车者前方某些路段拥堵,请另行择道。在这个决策的其中,就恐怕有传感器网络或者监控设施扮演的信息的采集者的角色。 面向物联网的分类研究(4):http://www.youerw.com/jisuanji/lunwen_49028.html