3.2 用户行为与标签质量的关系
用户希望看到的标签是基于其他用户的标注行为[16]。如果用户使用高质量标签的次数多于低质量标签的次数,这样一个标签的使用次数就可能代表着它的质量。一个标签系统希望展示使用次数多的标签,或者隐藏使用次数少于规定最小值的标签。我们希望高频次的标签能够有最高的评级,但是总有一些用户会给一些最经常使用的标签较低的评级。个人标签的出现降低了先前标签选择方法的准确性,Sen等研究表明个人标签只被很少用户经常使用[17]。
用户希望看到的标签同样基于用户自己的评级和其他用户的评级。研究表明当用户产生积极性的评级时他们也能产生消极的,评级数量的增加导致了许多标签选择方法提高了它们的覆盖率。标签选择方法使用消极性的评级,同样使用既有消极也有积极的评级,这比那些只使用在较低排名中的积极性评级或无评级的标签要好的多,这对真实世界的系统也是至关重要的。
4 标签质量评估研究工作
标签,作为一种语言,来自于实际运用和自然感知[18];基础知识也是社会构建的[19]。这样,标签在本体论意义上是主观的(根据脚本,语义术语有不同的活力级别)。用户可能对同样简称的项目有着不同的理解和词汇组合。因此,用户可能根据个人的倾向、偏好和信念选择标签[20]。事实上,这将导致在识别哪个标签有高质量时的个体差异。这也产生了通过评估一个标签集中语义术语的属性来客观确定标签质量的需要[8]。论文网
社会化标签的质量问题主要体现在社会标签的多义词问题、社会标签的同义词问题、社会标签的主观性、标签拼写错误以及垃圾标签等方面[21],低质量的标签干扰了社会标注系统中资源组织的秩序,降低了标签的应用效果。
针对此问题,已有研究者提出一些标签质量评估方法。标签质量评估方法总体上可以分为人工评价和自动评价两类方法。其中:人工评价方法是在用户参与下通过人工评估系统进行;自动评价可以从无参照评估和有参照评估两个方面进行,自动评价方法既可以只通过标签自身进行无参照评价,也可以将标签和其他的资源结合进行评估。
标签的人工评价方法利用用户打分来评判标签质量。在2007年Lee[22]等学者就提出了利用标注用户的直接在线评价来对标签进行评估,Lee等学者提出用户在给某一个资源打标签的同时对资源已经存在的标签添加一个支持或者是反对的态度;同年Sen[23]等学者比较了不同的标签评价的场景,对一些标签网站的设计方式进行了总结。
标签的自动评价方法中无参照的方法是基于标签自身统计属性来评估标签的质量,2009年Shaoke Zhang[24]等学者提出标签的三个统计属性中心性、频率、熵可以用来衡量标签的质量;2010年Fabiano Belém、Eder Martins[25]等学者提出为了提高标签的质量,应用的几个指标包括:标签共现、标签稳定性、标签描述力。
参考文献
[1] 宋洪鑫, 李蕾, 刘冬雪. 中文博客标签调查分析及标签推荐模型的研究[J]. 第五届全国青年计算语言学研讨会论文集, 2010.
[2] 吴丹, 杨艳, 马曦. 社会标签的规范性研究——学术博客标注[J]. 情报资料工作, 2011, 6: 004.
[3] R.Krestel,L.Chen.The Art of Tag:Measuring the Quality of Tag[J].L3S Research Center.University Hannover,Germany.
[4] 魏建良, 琚春华. 基于社会化标注的用户协同模型研究[J]. 情报学报, 2012, 31(3): 281-288.