(2)产生原因
在微观方面,数据清洗的对象分为模式层数据清洗与实例层数据清洗。数据清洗的任务是过滤或者修改那些不符合要求的数据。不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据3大类。不完整数据的特征是一些应该有的信息缺失,如机构名称、分公司的名称、区域信息缺失等.错误数据产生的原因是业务系统不够健全,在接收输入后没有进行判断而直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后有一个回车、日期格式不正确、日期越界等。错误值包括输入错误和错误数据,输入错误是由原始数据录入人员疏忽而造成的,而错误数据大多是由一些客观原因引起的,例如人员填写的所属单位的不同和人员的升迁等。
异常数据是指所有记录中如果一个或几个字段间绝大部分遵循某种模式,其它不遵循该模式的记录,如年龄字段超过历史上的最高记录年龄等。
重复数据也就是“相似重复记录”,指同一个现实实体在数据集合中用多条不完全相同的记录来表示,由于它们在格式、拼写上的差异,导致数据库管理系统不能正确识别。从狭义的角度看,如果两条记录在某些字段的值相等或足够相似,则认为这两条记录互为相似重复。识别相似重复记录是数据清洗活动的核心。
此外,由于法人或作者更换单位造成数据的不一致情况、不同的计量单位、过时的地址、邮编等其他情况也是数据清洗的对象。
2.5 数据清洗的基本原理及框架模型
2.5.1 基本原理
数据清洗的原理为:[12,11]利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为以下4种。
(1)手工实现
通过人工检查,只要投入足够的人力、物力与财力,也能发现所有错误,但效率低下。在大数据量的情况下,手工操作几乎是不可能的。
(2)编写专门的应用程序
这种方法能解决某个特定的问题,但不够灵活,特别是在清洗过程需要反复进行(一般来说,数据清洗一遍就达到要求的很少)时,导致程序复杂,清洗过程变化时,工作量大。而且这种方法也没有充分利用目前数据库提供的强大数据处理能力。
(3)解决某类特定应用域的问题
如根据概率统计学原理查找数值异常的记录,对姓名、地址、邮政编码等进行清洗,这是目前研究较多的领域,也是应用最成功的一类。
(4)与特定应用领域无关的数据清洗
这一部分的研究主要集中在清洗重复记录上。
在以上4种实现方法中,后两种具有某种通用性及其较大的实用性,引起了越来越多的关注。但是不管哪种方法,都由3个阶段组成:数据分析、定义;搜索、识别错误记录;修正错误。
2.5.2 数据清洗框架模型
目前已经研究出很多数据清洗的框架模型,下面介绍3个有代表性的框架模型。
(1)Trillium的模型
Trillium[13]是由Harte Hanks Data Technologies的Trillium Software Systems部门创建的企业范围的数据清洗软件。Trillium将数据清洗的过程分成5个步骤,分别由5个模块来完成:
①Converson Workbench提供了一整套数据审计、分析和重组工具;
②Parser对遗产数据和操作型系统的数据作解析、验证和标准化;
③Matcher地提供一套标准规则用于记录连接和匹配,使得用户可以方便地调整和定制以满足其特殊的业务要求;
④Geocoder验证、纠正和增强物理数据;
⑤Utilties提供联机数据浏览,域级频率统计,词的计数和分布。另外,合并、选择和格式重组工具提供数据重组能力。 智慧城市管理系统中的传感器数据采集与清洗方法研究(7):http://www.youerw.com/jisuanji/lunwen_6748.html