(3)交换方法:就是将数据记录对应的属性相交换。
(4)取样方法:就是抽样,指是用于挖掘的数据只是总样本中的一个样本。
2.3 数据挖掘算法
目前数据隐藏技术都是在每一个数据挖掘算法中单独进行考虑的。例如:Apriori算法,决策树算法,K-均值聚类算法,遗传算法。
2.4 数据与规则隐藏
数据与规则隐藏,即隐私保护算法是隐藏原始数据还是隐藏挖掘的各种规则。由于规则大多是对数据进行分析得到,因此各种规则比原始数据的抽象层次高、更具有价值,保护敏感规则有时比保护原始数据更重要。
2.5 隐私保持
隐私保持是一种最重要的隐私保护技术,它的主要特点是有选择地修改原始数据,这种修改能使隐私在不受危害的情况下获得较高的技术实用性。这种实用性主要体现在使用隐私保护技术以后有效减少有用信息的丢失量。隐私保持技术主要有三种:
基于启发式的隐私保持技术:修改特定值来减少挖掘效果的偏离。
基于密码学的隐私保持技术:利用密码学方法来进行数据加密,典型的是多方安全计算(SMC)方法。
基于重构的隐私保持技术:先将数据进行随机化处理,在整体上对数据进行干扰,待数据挖掘结束之后,再将原先的分布统计情况对其进行重构,恢复初始数据间的各种关联。
2.5.1基于启发式的隐私保持技术
启发式隐私保持技术针对的数据对象是集中式的。修改数据的方法主要有:值替代和分组。Stanley R.M. Oliveira[9]提出了一种频繁项集挖掘算法,通过一个基于倒排文件索引和布尔查询的检索引擎来过滤数据。举例来说:设D是源数据库,R是能从D中挖掘出的重要的频繁模式,RH是R中需要隐藏的规则,RP是需要隐藏的模式,RP=R,则当且仅当RP能够推导出RH。如何将D转化为向外界公开的D’,同时也能从D’中挖掘出除了RH以外的所有规则?为了达到这个目的,必须有选择地修改数据,使得敏感规则的支持度降低。数据处理方法是,从D中找出所有R,将R根据安全规则分成和RP,再根据检索引擎将D中的敏感规则找出来,运行删除限制模式的处理算法,将D’找出来。
2.5.2 基于密码学的隐私保持技术
基于密码学的隐私保持技术针对的数据对象是分布式的。因此,它包括分布式数据的垂直分割与水平分割两种情形。
对于数据垂直分割的情形,Wen liang Du[10] 根据安全标量积协议提出了一个系统转换结构允许将一个计算转化为安全的多方计算。假设有分布站点a、b,S表示其代表的数据集;B[i]代表第i个属性;Ea表示仅与a站点有关的属性的表达式,E b表示仅与b站点有关的属性的表达式;V表示N文矢量,V a(i)=1表示a站点第i个记录满足Ea,V a(i)=0表示a站点第i个记录不满足Ea;同理假设V b;V j(i)=1表示第i个记录属于类j, V j(i)=0表示第i个记录不属于类j;Pj表示S中类j的记录数。则一个非零项V=V a V b表示同时满足Ea和E b,因而属于数据集S。为了创建判定树,需找出V中非零项的记录数个数,即求P j= V a(V b V j),为了不向a、b站点对方互相暴露属性,提出了通过第三方生成随机N文向量经计算后互换的方法。根据P j计算Entropy(S)和Gain(S,B[i]),从而不断找到最佳分裂属性和分裂点。直至建立判定树。
对于数据水平分割的情形,Yehuada Lindell提出依据不经意求值协议依赖一个半可信第三方,通过寻求双方站点中的最佳属性来建立判定树。
2.5.3 基于重构的隐私保持技术
重构技术都是针对集中式分布的数据源,主要分为数值型数据的重构技术以及二进制数据与分类数据的重构技术。Rakesh Afrawal 提出了用离散化的方法与值变形的方法,通过添加随机偏移量来修改原始数据,然后用重构算法构造原始数据的分布,这种算法只针对集中式分布的数值型数据有效。对于二进制数据与分类数据的重构技术,Alezandre Evfimievski利用了随机化技术对部分数据进行修改的关联规则挖掘算法,S.J,Riziv等人则是利用贝努利概率模型对数据进行修改的关联规则挖掘算法,既保证了数据的使用率又达到了隐私保护的目的。 数据挖掘中的隐私保护技术研究(3):http://www.youerw.com/jisuanji/lunwen_491.html