社会标签是大众分类法的一种形式,它指的是基于开放的互联网的一个协作方法,让人们在网络上描述或分类网站资源,如网页、图片和视频的自由的文本标签[5]。相对于具有专业知识的专家,社会性标签通常是由没有任何控制或专业技术知识的用户任意创建的。因此,社会性标签也揭示了由模糊和同义造成的问题。64307
1 社会化标注系统
社会化标注系统主要由三种元素组成,即资源、标签和用户。资源是指存储在系统内的各种类型的信息,例如网页、博文、图片、视音频等,文本对资源个体用r表示,对系统中资源集合用R表示;标签代表着用户对资源的理解,用于描述资源的主题、类型、功能等多种特征,文本标签用t 表示,对系统中标签集合用T表示;用户是参与到标注系统中的主体,文本对用户个体用u表示,对系统中用户集合用U表示。
社会化标注系统中各元素之间的关系构成了一个标注关系三元组[u,r,t],而系统中所有的标注关系就构成标注关系集合P(u,r,t),即P∈{<u,r,t>:u∈U,r∈R,t∈T},资源因为被统一标签标记而形成资源链路,用户也因为使用同一标签标记而形成用户链路[6]。
2 社会化标签的统计
大众分类法按照标签标注方式分为两种:协同标注(Collaborative Tagging)和非协同标注。前者是所有用户可以对同一个资源进行标注,如delicious的用户可以对同一URL标注自己认为有用的标签;而后者只能是资源发布者才能够对资源加以标注,如博客系统中只有博主才能为自己的博文添加标签。
经研究表明,中文博客中词频最高的标签几乎都是2字词,经常被用来作为标签的词,其语义具有一般意义,这种词汇概括能力更强,因此被频繁的使用。研究人员通过对中文博客的标签统计,所有标签的频度统计的排名分布和指定标签的同现标签的频度统计排名分布都基本符合齐夫定律[7]。
3 标签质量相关研究
随着社会化标注系统的进一步扩展,标签的词汇越来越稳定,达到了统计上的规律性和形式标记模式[8]。实际上,目前对标签的“质量”还没有明确的定义,由MacGregor和McCulloch所声明—“为资源分配详尽的术语将会在牺牲精度下导致高的召回率,太明确的术语将会导致高的精度,但是低召回率” [9]—意着至少两个方面的质量:精度和召回率。标签的特点如全面性和特异性可能会被这些统计属性暗示或预测。例如,适用于太多物品的标签可能是过于笼统;适用于较少物品的标签可能更具有歧视性;使用次数太少的标签可能太隐晦[10]。
3.1 标签可信度
一个标签t对于一个网页d的可信度记为Conf(t,d),这代表着这个标签t与标注的网页d的语义相关程度。Conf(t,d)的值从0到1。如果这个标签t与这个网页d的绑定程度很高,它的可信度的值就很接近于1。否则,标签的可信度就接近于0[15]。
Conf(t,d)应该由一下三个因素决定:
(1) 标签用户的信用;
(2) 网页之间的语义相似度;
(3) 标签之间的语义相似度。
基于这些考虑,标签t的可信度可以用一个F的表达式来定义:
Conf(t,d) = F( C(u), CS(d,d’), TS(t,t’))。其中C(u)表示的是标签用户的信用,CS(d,d’)表示的是两个语义相似的网页d和d’, TS(t,t’)表示的是语义相似的标签t和t’,而且这两个标签与之前的网页是对应的关系。这个式子中F的三个因素的值越高,Conf(t,d)的值就越高。 社会化标注文献综述和参考文献:http://www.youerw.com/wenxian/lunwen_71402.html