对于每个数据样本 i,它关联一个多噪声标签集 li  {lij }j 1 ,该集合中的每个元素 lij 来源于

众包标注者 j。该数据集中所有样本的所有重复标签构成一个矩阵 L {li }ii , lij {c1 , 0, c2 },其中

0 表示对应的标注者没有为相对应的样本提供任何标签。对于每个众包标注者 j,它关联一个

,其中 1 i I 且1 k K 。该矩阵中的每个元素表示“众包标注者 j 标注样本 i

矩阵 ( j ){  ( j )}为类 k 的次数为 n( j )

”。在实践中出于成本和一致性考虑,通常不会让同一标注者多次标注同文献综述

一样本,因此有 ( j ) {0,1} 。另外,定义底层数据(真值)的负例和正例的先验概率分别为 p–

nik    和 p+。真值推理的目标是对于每个样本 i 赋予一个集成标签 y  来作为其真实标签的估计,并最

小化如下经验风险:

其中 () 是指示器函数。该函数当括号中的条件满足时,输出为 1;条件不满足时,输 出为 0。

2。2 真值推理算法

众包中最重要的技术挑战就是集成答案[6]。每个问题都有一个确定的答案,但是没有人 知道答案到底是什么。答案集成的目的就是从工人给出的答案中找到真正的答案。然而,这 其中存在两个问题。第一,由于工人有着不同程度的专业知识水平,导致了答案的不确定性 和高争议性;第二,问题的难度,导致了对真实工人和恶意工人之间专业知识水平的误导评 估[7]。为了克服这些问题,有一些通用的技术支持手段用以由工人标注所产生的多噪声标签 集推理出真值。

本科毕业设计说明书 第 5 页

通用真值推理算法大致分为两类:(1)非迭代:采用启发式方法来分别计算每一个问题 的答案集成。最典型的是多数投票(Majority Voting,MV)算法。(2)迭代:形成一系列迭 代,每次迭代有两个更新步骤:(i)根据回答问题的工人的专业知识更新每个问题的集成值来`自+优-尔^论:文,网www.youerw.com +QQ752018766-

(ii)根据每个工人给出的答案调整每个工人的专业知识。典型算法有 DS[8],GLAD[9]等。本 研究中主要涉及测试四中算法:MV,DS[8],RY[10]和 ZenCrowd[11]。其中 DS,RY 和 ZenCrowd 都是基于期望最大化(Expectation Maximization Algorithm,EM)[12]的迭代算法。

对于每个众包标注者 j,都关联一个混淆矩阵。 ki

注为 i 的概率。

表示该工人将真实标签为 k 的对象标

2。2。1MV 算法

MV 算法是一种最简单的非迭代算法。该算法在工人生成的混淆矩阵中选择 n 最高的答 案推断其为真值。Sheng[13]和 Ipeirotis[14]等人研究了基于 MV 的真值推理模型,提出了一种简 单的概率模型。该模型用来描述单个样本集成标签的质量 q。假设每个工人具有相同的标注 质量 p,如果一个样本具有 2N+1 个工人对其进行标注

上一篇:FKP基于局部梯度直方图的指关节纹识别
下一篇:基于LBP组合的人脸年龄分析算法

基于CDTB语料库的篇章关系标注研究

基于地理标注数据挖掘的个性化推荐方法研究

夜间行人数据库的采集标注与评测采集部分

基于矩阵低秩分解的图像标注增强问题研究

情感分类语料标注及预测系统设计

NUS-WIDE基于信息传播模型的图像标注

基于统计机器学习的序列标注模型算法与应用

网络语言“XX体”研究

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

安康汉江网讯

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

LiMn1-xFexPO4正极材料合成及充放电性能研究

ASP.net+sqlserver企业设备管理系统设计与开发

张洁小说《无字》中的女性意识

互联网教育”变革路径研究进展【7972字】