图1.数据质量问题的分类
2.2数据清洗国内外研究现状2.2.1 国外研究现状2.2.2 国内研究现状
目前,国内对数据清洗技术的研究还处于初级阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其做一些比较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。
2.3 数据清洗定义
迄今为止,数据清洗还没有公认的定义,不同的应用领域对其有不同的解释。在数据仓库领域,数据清洗定义为清除错误和不一致数据的过程,并需要解决元组重复问题。当然,数据清洗并不是简单地用优质数据更新记录,它还涉及数据的分解与重组。数据挖掘(早期又称为数据库的知识发现)过程中,数据清洗是第一个步骤,即对数据进行预处理的过程。各种不同的KDD和DW系统都是针对特定的应用领域进行数据清洗的。文献[3]认为,信息的模式被用于发现“垃圾模式”,即没有意义的或错误的模式,这属于数据清洗的一种。数据质量管理是一个学术界和商业界都感兴趣的领域。全面数据质量管理解决整个信息业务过程中的数据质量及集成问题。在该领域中,没有直接定义数据清洗过程。有些文章从数据质量的角度,将数据清洗过程定义为一个评价数据正确性并改善其质量的过程。
2.4 数据清洗研究对象
数据清洗的对象可以按照数据清洗对象的来源领域与产生原因进行分类。前者属于宏观层面的划分,后者属于微观层面的划分。
(1)来源领域
很多领域都涉及到数据清洗,如数字化文献服务、搜索引擎、金融领域、政府机构等,数据清洗的目的是为信息系统提供准确而有效的数据。
数字化文献服务领域,在进行数字化文献资源加工时,OCR软件有时会造成字符识别错误,或由于标引人员的疏忽而导致标引词的错误等,是数据清洗需要完成的任务。
搜索引擎为用户在互联网上查找具体的网页提供了方便,它是通过为某一网页的内容进行索引而实现的。而一个网页上到底哪些部分需要索引,则是数据清洗需要关注的问题。例如,网页中的广告部分,通常是不需要索引的。按照网络数据清洗的粒度不同,可以将网络数据清洗分为两类,即Web页面级别的数据清洗和基于页面内部元素级别的数据清洗,前者以Google公司提出的PageRank算法和IBM公司Clever系统的HITS算法为代表;而后者的思路则集中体现在作为MSN搜索引擎核心技术之一的VIPS算法上。
在金融系统中,也存在很多“脏数据”。主要表现为:数据格式错误,数据不一致,数据重复、错误,业务逻辑的不合理,违反业务规则等。例如,未经验证的身份证号码、未经验证的日期字段等,还有账户开户日期晚于用户销户日期、交易处理的操作员号不存在、性别超过取值范围等。此外,也有因为源系统基于性能的考虑,放弃了外键约束,从而导致数据不一致的结果。
电子政务系统也存在“脏数据”。为了能够更好地对公民负责并且能够与全国的其他警察局共享数据,英国Hum-berside州警察局使用数据清洗软件清洗大范围的嫌疑犯和犯罪分子的数据。这次清洗的范围庞大,跨越不同的系统,不仅有该警察局内部系统的数据,还有外部的数据库包括本地的和整个英国范围内的。其中有些数据库能够相连和整合,而有些则不能。例如,“指令部级控制”的犯罪记录数据库是用来记录犯罪事件的,该数据库是和嫌疑犯数据库分开的。而嫌疑犯数据库也许和家庭犯罪或孩童犯罪数据库是分开的。 智慧城市管理系统中的传感器数据采集与清洗方法研究(6):http://www.youerw.com/jisuanji/lunwen_6748.html