数据挖掘中的隐私保护技术研究(4)
时间:2016-11-28 21:25 来源:毕业论文 作者:毕业论文 点击:次
3.隐私保护技术存在的不足及解决方法 在数据库安全中的隐私保护领域,现有的隐私保护技术主要应用于包含单敏感属性数据的信息发布,由于多敏感属性数据之间具有相关性的特点,因此并不适用多敏感属性数据的发布,若将现有的方法直接应用于多敏感属性数据的信息发布将不可避免地导致大量隐私信息的泄漏。但是在许多实际应用中,发布的数据信息经常包含多个敏感属性,多敏感属性一般存在于同一个表中,每个元组的多个敏感属性值对应于同一个个体,同时有一些属性虽然本身并不包含个体的隐私信息,但是却与具体的隐私信息之间存在着明显的特定联系,容易产生推理通道,以上两种情况都将直接威胁到隐私信息的安全。此外在实际应用中,数据内容会经常由于更新、增加或删除的操作而发生变化。然而,对于同一数据,不同时刻产生的多个版本的数据之间存在着一定的联系,容易形成可被攻击者利用的推理通道,由此产生了数据集重发布造成的隐私泄露问题。 因此从当前数据库安全中隐私保护技术所面临的问题入手展开研究,有几种新颖的解决方案:一是如何有效地动态指定敏感信息,实现对个体信息的隐私保护,主要包括匿名模型、聚类和匿名算法的研究;二是如何解决针对多敏感属性的隐私保护问题,即研究单文有续集划分、多文划分、贪婪算法等一些关键技术;三是如何解决数据集重发布所带来的隐私泄露问题,主要研究了适合单敏感属性数据集重发布的隐私规则和算法、适合多敏感属性数据集重发布的隐私规则和算法以及基于桶的分组技术。 4.隐私保护数据挖掘算法评估 到目前为止,还没有一个能对各种数据集进行有效隐藏的隐私保护数据挖掘算法。当前的算法大都是针对特定的数据集设计的,因此没有一个能对每一种算法能进行准确评估的具体标准。但总体来说,可以从以下三个方面来对隐私保护数据挖掘算法的性能进行评估:算法效率、数据有用性和隐私保护程度。 4.1算法效率 算法效率,主要是指隐藏敏感数据或是敏感信息算法的进行时间。毋庸置疑,这是评价各种算法必需的重要指标。在数据量增大时,算法运行时间的变化也是应该充分考虑的要素。 4.2数据有用性 对经隐私保护技术过的数据集,它所包含的信息应尽可能满足数据挖掘所需要的信息。传统数据挖掘和基于密码技术的隐私保护数据挖掘不存在此问题,集中式数据集上往往要生成新的数据集用来发布,以实现在全局数据集上展开数据挖掘,这时就要在保证隐私信息没有泄露的情况下充分保发布数据集的有用性,公布一个可推出隐私信息的数据集对自身是有害的,但发布一个不能进行数据挖掘的数据集是无意义的。 4.3隐私保护程度 敏感信息在多大程度上实现成功隐藏,在要发布的数据集上采用各种数据挖掘算法挖掘出隐私信息的成功率。例如对发布的数据集采用类似的Apriori算法得不到敏感信息,但采用其他关联规则挖掘算法可能很容易得到敏感信息。 5. 结束语 随着信息不断膨胀、信息获取渠道越来越多样化,数据库的应用无处不在,不论是在理论研究还是实际应用领域,对数据挖掘中的隐私保护技术进行研究都具有非常重要的意义。数据挖掘的安全性和可用性始终是一对矛盾,在保证数据安全性的前提下,需要最大限度的提高系统的可用性,构造出一个既方便使用又能最大限度解决隐私保护问题的数据挖掘技术是未来需要努力的方向。 致谢 时光如箭,转眼间就要从学院毕业了,但在攻读学士学位期间的一幕幕学习生活,如开学报到、听老师授课、与同学讨论、聆听学术报告、去图书馆查阅资料等依然历历在目,仿佛就像昨天刚发生过一样。在过去的一年中,通过自己的艰辛努力,在老师和同学的关心帮助下,使我对数据挖掘有了一个科学、系统和深刻的认识,对我今后人生道路的将产生深刻的影响。 (责任编辑:qin) |