数据清洗国内外研究现状综述_毕业论文

毕业论文移动版

毕业论文 > 研究现状 >

数据清洗国内外研究现状综述

数据清洗是物联网中处理传感网络所提供的海量数据的一个重要方式[10]。这种方法主要应用于逻辑层面不需要对硬件进行改动就能够很好地提高数据的准确性,很受研究者的欢迎。虽然数据清洗是物联网研究的一个不可或缺的方面,但是数据清洗并不是物联网所特有的。数据清洗并不是由于物联网的产生而产生的,相反数据清洗的诞生要比物联网早很多。数据清洗是现代计算机技术不断应用到企业管理中所产生的。8408
上个世纪末,伴随着计算机技术的一次又一次的重大变革,计算机的数据计算和管理能力越来越强大。人们渐渐感觉到将各种数据进行数字化管理能够大大提高以往各种工作的效率是一切变得更加便捷。各行各业当中企业信息化的要求越来越迫切,信息化发展速度越来越快。信息化并不是简单的将原有的数据进行简单地数字化,为了获得高质量的信息化领域内做出了各种研究,其中一个很重要的方面就是企业数据的管理。随着信息化的不断发展,各行各业已建立了很多基于数据仓库的计算机信息系统,积累了大量的数据。信息系统建立的最终目的是从积累的大量数据中获取对自己有帮助的信息而不是单纯的存储这些数据。当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,所存放数据的质量都能满足用户的要求。为了使数据能够有效地支持各组织的日常运作和帮助组织做出真确的决策,要求信息系统中的数据可靠无误,能够准确地反映现实世界的状况。数据是信息的基础。人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数据分析技术,二是数据质量不高。因此,数据质量的管理获得了越来越多的关注。数据质量主要指的是数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)。数据质量管理牵涉到的方面很多,本文主要数据清洗的角度加以探讨。
根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层,文献[3]将数据质量问题分为4类(如图1所示):单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。图1表示了这种分类,并且分别列出了每一类中典型的数据质量问题.。单数据源情形中出现的问题在多数据源的情况下会变得更加严重。图1对多数据源没有列出在单数据源情形中就已经出现的问题。模式层次上的问题也会体现在实例层次上。糟糕的模式设计、缺少完整性约束的定义以及多个数据源之间异质的数据模型、命名和结构冲突等,都属于该类问题。可以通过改进模式设计、模式转化和模式集成来解决模式层次上的问题。实例层次上的问题在模式层次上不可见,一些可能的情况有数据拼写错误、无效的数据值、重复记录等。
 图1.数据质量问题的分类
数据清洗国内外研究现状
数据清洗(Data Cleaning,Data Cleansing或者Data Scrubbing)的目的是检测数据中存在的错误和不一致,剔除或者改正它们,以提高数据的质量。
数据清洗主要在数据仓库、数据库知识发现(也称数据挖掘)和总体数据质量管理这3个领域研究较多。在数据仓库研究和应用领域,数据清洗处理是构建数据仓库的第一步,由于数据量巨大,不可能进行人工处理,因此自动化数据清洗受到业界的广泛关注。
1 国外研究现状
国外对数据清洗的研究最早出现在美国,是从对全美的社会保险号错误的纠正开始[10]。美国信息业和商业的发展,极大地刺激了对数据清洗技术的研究,主要集中在以下4个方面。
(1)检测并消除数据异常 (责任编辑:qin)