2.3 标签云图
“标签云”(Tag-Cloud)是目前在社会化标引系统中普遍使用的一种标签展示方式。每个标签以一个文字块的形式显示,被称为一片“标签云”,所有标签云构成一幅标签总图。每个文字块(即每片标签云)的面积代表该标签的热门程度(即使用频率高低),文字块的面积越大表示该标签越热门、使用频率越高。文字块的面积可以通过字体大小来调整。标签云在图上可以按字顺、创建时间、面积大小来排序。整个系统信息空间中的标签往往规模极大,对大多数用户有价值的是那些体现群体知识的标签,因此系统往往仅将部分热门类目汇集成一幅标签总图。用户点击某一个文字块就能够获得所有使用该标签标注的资源列表[29]。
2.3.1标签云图的表现方法
目前关于标签云图表现方法的研究,主要包括:词语的选择、权重的表达方式等等。Peter Merholz[30]中提出通过将相似的标签放在一起,并剔除一些标签而改善标签云图的视觉效果。Millen[31]等人提出用户应该动态性的移走不是特别有意义的标签,他们也能够增加一些索引这样标记就可以能够在较大的云图中找到那些标签了。Bielenberg[32]提出圆形云图,以反对通常的长方形云图设置,因为在圆形云图中具有较高权重的标签看上去更接近中心[33]。字体大小和到中心的距离代表这个标签的重要程度,但是标签之间的距离不代表它们的相似度[34]。
不管怎样,云图仅仅是标签表达的一种方式。例如,dubinko[35]等提出一个模型来用时间线表示标签的方法。而Russell[36]提出了cloudalicious,一种研究标签云图随着时间变化的工具。Jaffe[37]等人将标签云图集成在地图中用于显示具有地理信息的标签,比如,从某个地方获取的图片[33]。
2.3.2标签云图表现形式
标签云图需要通过页面来表现出来,目前改善页面外观的问题是通过一些专门的算法实现的,并且也引起了相关研究人员的注意[33]。Owen和Lemire[38]提出了一种模型和算法来提高包含内嵌HTML的标签云图,同时这种算法使用嵌套表格来实现一个更加通用的两层考虑标签关系的布局。因为展现的标签的字体大小通常被用于显示标签的相对重要性或频率,一种典型的标签云图包含大小不同的文本。结果就是有很多空白的空间被浪费。为了解决空间浪费的问题,作者提出一个经典的自动电子设计(EDA)算法,最小分割空间,实现区域最小化和标签云图的聚类。对于大片空白区域,解决办法是一个Knuth-Plass的经典文本对齐算法的混合,由Skiena考虑的书本放置的练习[34]。
标签云图是很简单却被广为使用的一种视觉界面模型,但是因为一些局限性,限制了它的效用,做为视觉信息检索界面。这是因为:选择标签组以展示的方式是基于使用频率的。这不可避免地出现了这样一种情况:但凡显示出来的标签都具有较高的语义密度e。在判别值方面,最常用的词最不适合做判别词[39]。如果是为数不多的不同话题,则它们所有相关的标签都倾向于主导整个云图[40]。Xu[41]提出了对标签选择研究的必要性,这样可以改善标签云图的效果。
按字母顺序排列显示出来的标签既不能促进视觉浏览也不能推断标签间的语义关系。基于相似性的显示可以改善标签云图的浏览[33]。Yusef[42]中则提出了一种将标签按相似性分组,在群集技术和同现分析的基础上通过减少标签组的语义密度(即标签的重叠)对标签进行设置的方法。
HubBlog尝试将del.icio.us标签用复杂的网络图(如图2.1所示)表示,而这种网络图却难以理解[43]。
社会标签系统挖掘研究中文博客标签及标签云图的自动生成研究(6):http://www.youerw.com/jisuanji/lunwen_9456.html