数据挖掘中的隐私保护技术研究(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

数据挖掘中的隐私保护技术研究(2)


与此同时,数据挖掘也面临着许多问题的挑战,其中,数据挖掘的个人隐私与信息安全问题尤其得到关注,因为数据挖掘也完全可以被攻击者用来对数据库进行推理攻击和聚集攻击,偷取数据,破环系统的安全。比如可以利用推理、归纳等逻辑手段从中得到数据提供者本不想公开的隐私(privacy)数据[2]。数据挖掘领域中的隐私可被划分为两类:第一类隐私是原始数据本身,如个人的财产状况、信用等级、医疗数据等信息。第二类隐私是原始数据所隐含的知识,如公司大客户的行为特征、企业的战略决策依据等[3]。对数据挖掘而言隐私保护包含两重目的——符合隐私要求和提供有效的数据挖掘结果。隐私保护主要考虑以下两点:第一,不侵犯隐私,对于敏感的数据如身份证号、姓名、地址等都必须在原始数据库中进行修正和整理;第二,对于采用数据挖掘算法从数据库中挖掘出来的侵犯隐私的信息也必须被排斥。
2.隐私保护技术
数据挖掘中采用了很多方法实现数据保密,隐私保护技术是指通过采用修改原始数据的技术,使隐私在不受危害的情况下获得较高的技术实用性,有效减少有用信息的丢失[4]。隐私保护技术主要是基于以下几个方面来进行的:数据的分布、数据的修改、数据挖掘算法,数据与规则的隐藏及隐私保持。
2.1 数据分布方式
根据数据的分布情况,隐私保护技术可以分为针对集中式数据的隐私保护技术和针对分布式数据的隐私保护技术,而分布式的隐私保技术又分为基于数据水平分布和基于数据垂直分布的隐私保护技术[5]。
集中式数据挖掘的隐私保护技术多采用数据预处理方法,即数据持有者在公布其数据前,先对原始数据进行预处理,以实现对隐私的保护;然后再将修改后的数据存放到数据仓库中进行统一分析,在其后的数据挖掘工作中数据持有者不必再参与其中。
分布式数据挖掘的隐私保护技术主要基于密码学的方法,典型的如安全多方计算(Secure multi-party computation,简称SMC)。安全多方计算基于如下设想:持有秘密输入的n方,想利用各自的秘密输入“安全地”合作完成一个函数的计算,要求计算结束后每个诚实参与方都能得到正确的输出,且每个参与各方除了知道自己的输入和最终结果以及从中可推导出的信息外,得不到其它任何信息,即计算保证各参与方隐私的安全。在分布式的隐私保护技术中,数据持有者在保证自身隐私的基础上一般需全程参与数据挖掘过程。
为保护敏感信息,常见的方法就是对数据进行分片保存,对数据进行水平分割或者垂直分割。水平分割指在每个节点上都保留原始数据的部分完整记录,各节点数据汇总即得到完整的原始数据。垂直分割指将对象的属性数据进行分割,在不同的节点上保存对象的部分属性数据。对于上述两种数据分布形式,隐私保护的数据的挖掘算法要求各节点在不知道对方数据的基础上即能完成各种挖掘任务。文献[6]中实现了数据水平分布时的隐私保护分类挖掘算法;文献[7]提出一种在数据垂直分布情况下的隐私保护分类挖掘算法;文献[8]则提出一个从垂直分割的数据中挖掘全局关联规则的隐私保护算法。
2.2 数据修改方法
数据修改指根据组织的隐私保护政策,在发布数据之前,对原始数据进行适当的修改,达到保护这些数据的目的。常用的方法主要有:
(1)值替代方法:使用不可逆推的算法,将一个新的值代替原有的值;或者用替换符(如:?)代替已存在的值,以保护敏感数据和规则。
(2)聚集方法:就是将几个值进行合并或抽象而成为一个粗糙集。 (责任编辑:qin)