2.5 数据清洗的基本原理及框架模型 14
2.5.1 基本原理 14
2.5.2 数据清洗框架模型 15
2.6本文提出的智慧型城市中创新的数据清洗方法 16
3. 系统设计和算法 20
3.1系统架构 20
3.2算法 22
3.2.1 面向实时数据流的清洗算法 24
3.2.2 面向数据仓库的清洗过程 29
4. 实验验证 31
4.1 实验环境及方法 31
4.2实验结果分析 32
4.2.1 虚拟数据下的测试结果 32
4.2.2 真实环境下实时数据测试结果 34
5. 总结及后续工作 36
6. 参考文献 37
7. 致谢 39
8. 附录 39
1 绪论
随着传感技术和信息处理技术的不断发展,各行各业利用传感器网络建立了很多计算机信息系统,这些系统通过广泛部署的各类传感器对现实环境进行监测从而积累大量的数据。近些年来随着传感器网络的越来越完善,世界各地都在大力发展物联网技术,其中最为突出的就是基于物联网技术的智慧型城市管理系统。[1]IBM等IT龙头企业在这方面做出了很多研究和实践。物联网技术使得城市管理更加高效便利,大大节约了人力资源和管理成本。
智慧型城市管理平台是物联网技术高度发展的产物,是各种物物联网技术的结合。它综合了传感网技术、地理信息技术、3G技术、现代网络及无线通信技术等,搭建感知城管统一框架,把传感器终端和各个应用子系统连接起来,实现城管应用的大集成和“管控营一体化”,使感知城管底层各个孤立的传感网络形成有机的整体,从而达到城市管理“高效、节能、安全、环保”的社会服务理念。通过各类集成化的微型传感器协作地实时感知和采集各种城市管理对象的信息,智能化指挥中心对采集上传的数据信息进行处理、分析、存储,以及高效的数据分享,最终实现城市管理的“感、传、知、控、调、评、服务”的一体化。
由各类传感器设备构成的感知网络是智慧型城市系统的基础。它为整个系统的运行提供数据基础,是系统感知整个城市状态的主要手段。传感器网络所提供的数据的质量从根本上决定了整个智慧型城市管理平台的最终应用效果。
不光是智慧型城市平台,所有的管理系统都必须依赖可靠地数据基础,所以数据质量[2,3]是所有传感器监测系统必须考虑和保证的内容。数据是信息的基础,好的数据质量是各种数据分析如OLAP、数据挖掘等应用有效的基本条件。“进去的是垃圾,出来的也是垃圾(garbage in, garbage out)”[3]人们常常抱怨“数据丰富,信息贫乏”,究其更本原因,是数据质量不高,如数据输入错误、不同来源数据的表示方法不同,数据间的不一致,数据之间时空顺序错误等,导致数据集中存在这样或那样的脏数据。它们主要表现为:拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示(重复)、不遵循引用完整性等。实现智慧型城市的基础首先是要能够准确的感知现实世界,将现实世界的通过传感器转换成计算机系统中真实环境的数据模型。做到准确并不是那么容易的。传感器数据的准确性受到很多因素的影响,比如传感器质量参差不齐致使本身存在误差、测量的随机误差以及环境中的一些异常变化带来的误差[4]。为了从大量的监测数据中获得有用的信息,必须保证数据可靠无误,能够准确地反映现实世界的状况。一方面可以通过制造更加精确更加抗外界干扰的传感器来提高测量结果的准确性。然而这带来的必然是成本提高,对于城市管理这种大范围的应用成本提高往往是不可接受的。另一方面可以通过逻辑上的数据清洗在海量的监测数据中通过结合数据所表示属性的特点,对数据准确性合理性进行判断,来剔除一些错误的数据从而获得对客观环境的真实反映。 智慧城市管理系统中的传感器数据采集与清洗方法研究(2):http://www.youerw.com/jisuanji/lunwen_6748.html