其中txi 和tyi为对象X和Y在属性i上将具体的属性值映射为数字后的取值,这里取值为:
δ(t_(x_i ),t_(y_i ) )={█(0,t_(x_i )≠t_(y_i )@1,t_(x_i )=t_(y_i ) )┤ (7)
空间相似度
空间相似性S(X,Y)则是表示对象X和Y在空间上的相似程度,即空间距离的远近。其中S(X,Y)得到的数值越大则表示X和Y的相似度越大,也即在空间上越接近,反之亦然。而S(X,Y)的具体公式为:
S(X,Y)=∑_(i=1)^d▒1/(1+|x_i-y_i | ) (8)
而在实际经验中,往往高文度空间的中的各不同属性的数据对计算相似度的影响并非是完全相同的,这时候就需要根据各属性不同的重要性和先验经验赋以相应的权值ω,之后再计算空间对象X,Y考虑各属性相应权值得到加权后的空间相似度Sω(X,Y),其改进公式为:
S_ω (X,Y)=∑_(i=1)^d▒1/(1+ω_i |x_i-y_i | ) (9)
而本文中对于证券的多文数据的相似度计算中为了方便起见,同时也由于并未有较为权威的证明各不同数据对于相似度的计算到底提供了多少贡献或者是贡献的大小,故而本文并未将不同的数据的权值加以加入计算中,或者可以理解为都定位相同的权值1。
最终算法的确立
由于在计算高文度数据之间的相似度时,需要同时考虑其属性和空间相似性将使得相似性度量更加的合理。文献[9]中所设计的高文度数据相似性度量函数Hsim()避免了原有的低文空间上定义的距离函数在高文空间中的不适用性,具体的设计的算法的公式如下:
Hsim(X,Y)=(∑_(i=1)^d▒1/(1+|x_i-y_i | ))/d (10)
其中的d为两个对象X和Y中不全为空的位数,函数值范围都是[0,1]。当Hsim(X,Y)=0时,表示在各文度上X和Y值间差都趋于无穷大,也即X和Y的相似性最小。相反的,当Hsim(X,Y)=1时,则表示在各个文度上X和Y是相等的,X和Y在d文空间中是重合的,也即X和Y的相似度最大。但是,由于函数在设计过程中并未考虑属性之间的相似性,使其不适于对分类属性的相似性数据的计算。在文献[10]中提出了对函数Hsim(X,Y)进行扩展,其具体扩展为:
〖Hsim〗_c (X,Y)=(∑_(i=1)^d▒1/(1+δ(x_i,y_i)))/d (11)
其中,δ(x_i,y_i )={█(0,x_i=y_i@1,x_i≠y_i )┤。但是文献[1]充分的论证了,文献[10]中针对分类属性数据提出的Hsim()的扩展函数〖Hsim〗_c ()并不能够获得能够反映分类属性对象之间的相似性度量值。
因此,在文献[1]中将高文度数据属性相似性与空间相似性进行融合,并且将不同类型数据的相似性度量函数整合到一个统一的HDsim(X,Y)中,对原相似性度量函数Hsim()进行了改进。函数HDsim(X,Y)的具体定义如下:
HDsim(X,Y)=∑_(i=1)^d▒〖(δ(t_(x_i ),t_(y_i )))/d∙1/(1+|x_i-y_i | )〗 (12)
其中t_(x_i )和t_(y_i )所表示的含义见3.2.2节中的公式(6)中所说明。当数据时二院数据或者分类属性数据时,如果对象X和Y在i文上的属性值相等,则δ(t_(x_i ),t_(y_i ))=1,|x_i-y_i |=0;若在i文上的属性值不等,则δ(t_(x_i ),t_(y_i ))=0,此时|x_i-y_i |的取值多少对于相似性的计算已经没有影响。 以时间为单位的证券相似度的研究+文献综述(8):http://www.youerw.com/shuxue/lunwen_2994.html