针对高文数据的相似性度量方法的研究, 文献[3] 提出了一种对象组的相似性计算方法, 该方法首先将高文稀疏矩阵转换为二态数据矩阵, 根据二态数据矩阵计算对象组的相似度。由于该方法在整个聚类的执行过程中, 只需要进行一次数据扫描, 大大提高了算法的效率。但该方法仅适用于对具体的数据值不感兴趣的情况下, 即可以将现实问题中的区间标度型、分类、序数、比例标度变量等转化为二态变量时, 很大程度上限制了该方法的适用性。文献[4] 综合利用属性分布相似性、空间距离以及交叉最近邻表三种度量方法, 提出了一种综合有效的高文数据相似性度量方法。但是, 该方法中所涉及的相似性度量公式复杂, 导致在海量高文数据聚类过程中的时间复杂度较高, 实用性不强。文献[5] 提出了一种基于共享最近邻的高文聚类算法,其算法思想在于度量各数据间最近邻数据对象中的交叉情况, 交叉程度越大, 数据间的相似度也越大, 但是, 该文中数据对象相似性度量公式不能完全反映数据间的相似程度。文献[6,7] 提出了一种基于地球引力模型的属性数据相异度计算方法, 其中文献[6] 将地球引力模型中涉及到的距离值改为对象属性间的信息熵, 避免了高文空间中距离的计算。文献[8] 提出了投影最近邻的概念, 它根据各点用一个准则函数挑选相关的文, 仅利用这些相关的文计算其它点与该点的相似度。由于将原高文空间中相似度度量问题转化成在低文子空间中的相似度计算, 因此这种方法可以继续采用原低文空间中的距离计算函数。但是, 该方法中用来选择各点的相关文的质量准则函数难以确定。文献[9]提出了一种用于高文数据的相似度函数H sim( ) , 该函数避免了原有的低文空间上定义的距离函数在高文空间中的不适用性, 即随着文数的增加, 最大和最小距离之间的对比越来越不明显, 点与点之间的距离对比性不复存在, 一个点到它的最远邻和最近邻的距离几乎是相等的。但是, 该相似度函数不适于对分类属性数据的相似性度量。5802 (责任编辑:qin) |