(2)Bohn模型
Bohn数据清洗模型[14]将数据清洗分为以下4个主要部分:
①数据检查:确认数据质量,内部模式和主要字段(使用的不同字段);
②数据词法分析:确定每个字段内的各个元素的上下文和目的地;
③数据校正:将数据与已知清单(通常为地址)匹配并保证所有的字段被标明为好、坏或可自动校正。但是,这并不表示在软件设计的时候需要有许多值的判断。只要可能,技术人员就应该与客户一起校正源中的数据;
④记录匹配:决定两个记录(可能是不同类型的)是否代表同一个对象。该过程涉及许多值判断和复杂的软件工具。
(3)AJAX模型
AJAX[15]模型由Helena Galhardas提出,该模型是逻辑层面的模型(Logic Level),将数据清洗过程分为5个操作步骤:
①源数据的映射(Mapping);
②对映射后的记录进行匹配(Matching);
③对记录做聚集操作(Clustering);
④对聚集进行合并(Merging);
⑤对合并后的数据做视图显示(Viewing)。
2.6本文提出的智慧型城市中创新的数据清洗方法
数据清洗这个概念从诞生以来一直在不断发展着,但是传统的数据清洗的研究对象基本上都是企业信息化积累起来的数据仓库。也就是说清洗的对象是积累好的数据,在这些数据的清洗过程中对于实时性的要求与物联网应用中对于传感器网络中上传上来的实时的海量数据的清洗过程中对于实时性的要求相比较基本是可以忽略。在智慧型城市应用中传感器网络的主要作用是实时感知城市当前的状态,智慧型监控系统根据城市当前传感器感知的城市状态做出各种控制策略或者是对相应的异常情况发出报警以及将城市的各项状态及时的显示给工作人员。因此智慧型城市应用中对于传感器网络的数据清洗过程不光要做到准确,还要求又很好的实时性,清洗过程能够及时的将数据提供给系统中其他的各项功能使用。
智慧型城市应用包括各种各样的传感器例如:温度传感器、照度传感器、异传感器、RFID阅读器、倾角传感器、GPS定位仪等等。不同的传感器所感知的数据拥有者各自独特的地方,所要处理的误差类型也就各不相同。在本文涉及的无锡智能城管系统中为了达到更好的数据清洗效果我们针对智慧型城市应用中,传感器数据采样率高数据之间存在连续变化以及数据实时性要求高的共性部分设计了处理这些共性特点的数据清洗方法。在智慧型城市系统中,数据处于不同的阶段它对应的清洗方式也应该是不一样的。
我们将本智慧型城市应用中的传感器按照被感知数据的类型主要分为以下两类:
(1)周期型续数据传感
这类传感器的主要特点是检测的是连续变化的数据,并且数据以一定频率被传送给消耗这类数据的应用。这类传感器按照预设的频率传送数据,每次传送的数据量相同,两次数据传送之间的时间间隔是确定的。例如:环境温度检测,车辆GPS坐标,土壤水分盐分等。这些传感器所测量的量都是必须被实时感知的只有这样才能够当前的实际状态以及及时发现状态的变化达到更好的监测管理的目的。
(2)触发型间歇数据传感
这类传感器主要特点是传感器以某一类事件作为触发条件间歇的而不是以固定的周期像应用传送数据。这类传感器每次传送数据的时间是不确定的而且数据的量可能相同也可能不同,每两次传送数据之间所间隔的时间也是不确定的。这类传感器主要是各类RFID阅读器。RFID阅读器上传数据的触发条件是阅读器的阅读范围内有标签进入,标签进入阅读范围内的时间是实现不可以估计的。 智慧城市管理系统中的传感器数据采集与清洗方法研究(8):http://www.youerw.com/jisuanji/lunwen_6748.html